コラム

クローラーとは、検索エンジンの「情報収集係」を務めるロボット

suzuki
蜘蛛の巣

クローラーとは、Web上の文字や画像などを収集するロボットのことです。

クローラーによって収集されたデータは検索エンジンのデータベースの一部となって、それぞれインデックス(見出し・索引)されていきます。クローラーはWeb上のありとあらゆるページを巡回して、データベースを構築しています。この際にリンクからリンクを高速で移動することから「スパイダー」とも呼ばれています。

「クローラー」と特に指定なく言う場合は、Googleの情報収集係を務めている「Googlebot」のことを指していることがほとんどです。

クローラーの情報収集にはクセがある

クローラーは情報収集係ですが、一度サイトに来たからといって、すべてのページをくまなく巡回してくれるわけではありません。ざっとページを見たら、次のサイトに行ってしまいます。仮に巡回されなかったページが新しいページなら、そのページはまだ検索エンジンのデータベースに登録されていないので、検索経由で人が来ることはありません。

また、クローラーが情報収集のためサイトに訪れる頻度はサイトによって変化します。頻度はサイトの重要度と更新頻度と関係していて、よく更新されているサイトや、重要度が高いと考えられているサイトは頻繁にクローラーがやってきます。

実際に、毎日更新しているようなサイトには毎日クローラーがやって来ます。一方で、ほとんど更新していなかったサイトにページを追加しても、インデックスされるまで2週間以上かかってしまいます。ちなみに、Googleサーチコンソールを使用すれば「サイト更新したからクローラー来てください」というサインを出すことはできます。

クローラーに優しい「クローラビリティ」

サイトをクローラーが巡回しやすいよう配慮することを「クローラビリティ」と言います。これはSEO内部対策の一環として重要視されています。

基本的にはクローラーのための対策も、人間のための対策も、同じように考えられます。ツリー構造になっていればサイト内に何があるかを把握しやすいですし、あまり何度もリンクをクリックせずに目的のページまで行けた方が良いものです。なので、まずは人が使いやすいサイト(ユーザビリティ)を考えるのが第一です。

ただ、人間には必要ない「クローラー向け」の対策もある程度は必要になります。例えば、人間であれば画像の中の文字や、映像の中のテロップや音声などを理解することができますが、ロボットは理解できません。そのため、クローラビリティを考える上では「テキスト」が欠かせません。画像にはalt属性で画像の説明文を用意するなど、クローラーが内容を把握しやすいように手助けをしてあげましょう。