2014年12月28日日曜日

検索エンジンでブログを検索対象とする方法

このエントリーをはてなブックマークに追加
久しくGoogleウェブマスターツールを覗いてみていなかったのですが、いつのまにか自分が使っている Blogger もサイトマップに対応していたので、Googleウェブマスターツールで登録を変更しました。

ウェブマスターツールでGoogleに検索をしてもらうようにするための方法は、BloggerでなくてもどのWEBサイトでもブログでも同じです。

Google検索の仕組み

Googleでは、スパイダー(クローラー)というソフトウェア(ロボット)が定期的にWEBページをクローリングして情報を収集してインデックスを作成しています。Googlebot がこのクローリングを行うためのロボットで、ボットとはロボットの略称です。

英語のクロール(CRAWL)という意味には、虫が這い回るという意味もあるので、まさにリンクをたどって這い回る蜘蛛(スパイダー)がクローリングなのです。

スパイダー

そして、誰かがGoogleで検索したときに、索引として参照されるのがこのインデックスです。逆に言えばインデックスに登録されていないWEBページは検索の対象になりません。

Goolgeの検索の仕組みついては、Googleが提供している「How Search Works」(日本語字幕あり)が、わかりすく説明をしているので参考にしてください。

クローラーの挙動を決める robot.txt

robots.txt ファイルについて - ウェブマスター ツール ヘルプ に説明がありますが、robots.txt には、クローラーが、サイトやブログにアクセスしたときにどのように振る舞ってもらいたいかが記載されています。最もシンプルなのは、クローリングを許可するか否かと、サイト構成(地図)が記載されているサイトマップの設置場所についての記載です。

robots.txtの表記例
項目名 説明
User-agent: 対象となるロボット名です。
* はすべてのロボットを対象にしているという意味になります。
Disallow: クローリング対象外とするURLを記載します。
Allow: クローリングの対象とするURLを記載します。
/ はディレクトリ配下すべてを対象とするという意味になります。
Sitemap: サイトマップが設置されているURLを指定します。
Blogger の robots.txt
Blogger の場合、何も設定しなくても下記の robots.txt がルートディレクトリに作成されています。自分のブログであれば、http://walking-elephant.blogspot.com/robots.txt です。独自に編集することもできます。
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://walking-elephant.blogspot.com/sitemap.xml

User-agent: が Mediapartners-Google となっているのは Google AdSense です。Disallow: の指定がないので、すべてのディレクトリが対象となります。一方、通常の検索エンジンに対しては、/search をクローリング対象外としているので検索結果やラベル検索によるページについてはインデックスされませんが、広告は表示されるという設定になっています。

サイトマップとは

Googleなどの検索エンジンのクローラーは、リンクをたどってコンテンツの情報を取得していきます。サイトマップはその道しるべ(索引)です。サイトマップには、コンテンツの場所(URL)や最終更新日などが書かれています。

Blogger は、サイトマップに対応していなかったので、サイトマップ代わりにRSS/ATOMフィードを使わなければなりませんでしたが、いつのまにかサイトマップに対応して自動的に作成されるようになっていました。

下記は、自分のブログのサイトマップの例ですが、<URL>タグで1コンテンツを囲み、<loc>タグで場所(URL)と<lastmod>タグで最終更新日が記述されています。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://walking-elephant.blogspot.com/2014/12/2kg.html</loc>
    <lastmod>2014-12-23T16:30:27Z</lastmod>
  </url>
</urlset> 

sitemap.xmlの表記例
項目名 説明
<url> <url>タグで1コンテンツを囲みます。
<url>~</url>の間に以下のタグでコンテンツの詳細を記載します
<loc> 【必須】
ページの場所(URL)を記載します
<lastmod 【オプション】
ページの最終更新日を記載します
<changefreq> 【オプション】
ページの更新頻度ですが参考値です(always,hourly,daily,weekly,monthly,yearly,never)
<priority> 【オプション】
サイト内の重要なページを知らせるための優先度(0.0-1.0)
デフォルトの優先度は0.5です

ウェブマスターツールに登録しよう

Googleなどの検索エンジンは、下記の順番でサイトやブログのリンクをたどってインデックスに登録していきます。

Googleのクローリング順序

しかし、世界中には数多のサイトやブログがありますので、自分のサイトやブログをクローリングしてもらうために、ウェブマスターツールに登録しておきましょう。Yahoo! の検索エンジンはGoogleなので、現在、WEBマスターツールを提供しているのは、GoogleとBingです。

・Goolge ウェブマスターツール
・Bing Webmaster Tools

Googleウェブマスターツールにサイトマップを登録しよう

Googleウェブマスターツールでのサイトマップの登録方法は下記の通りです。

① メニューからクロールの下にあるサイトマップを選択

② 「サイトマップの追加テスト」をクリック

③ ボックスにsitemap.xmlをタイプ

④ 「サイトマップをテスト」をクリック

Googleウェブマスターツール(サイトマップ)

⑤ テスト完了でエラーがないことを確認

Googleウェブマスターツール(サイトマップ テスト)

⑥ ①-③と同じ手順で「サイトマップを送信」をクリック

新しく登録されたサイトマップでインデックスに登録されるまでステータスは保留となっています。

Googleウェブマスターツール(自分のサイトマップ)

⑦ インデックスに登録されたら、以前に登録したRSS/ATOMフィードを削除

RSS/ATOMフィードでインデックスを登録していたときは、214登録/215送信でしたがXMLサイトマップに変更したら213登録/213送信と正しい213ページになりました。

Googleウェブマスターツール(フィードの削除)

Bing Webマスターにサイトマップを登録しよう

続いてBingのWebマスターツールへのサイトマップの登録です。サイトマップの送信ボックスにXMLサイトマップのURLを入力して送信ボタンをクリックすれば完了です。

Bing Web Master tools

以上でサイトマップの登録は完了です。

関連記事


コメントを投稿