クローラ 【crawler】 スパイダー / spider / 検索ロボット / search robot
概要
クローラ(crawler)とは、様々なWebサイトを自動的に巡回し、公開されている文書や画像などのデータを収集していくソフトウェアやシステム。目的に応じて収集するサイトの範囲やデータの種類、巡回頻度などは異なる。単にクローラといった場合はWeb検索エンジンが運用するものを指すことが多いが、Web上の情報を対象とした研究や調査などのために運用されているものや、スパム業者が公開メールアドレスを収集するために運用しているものもある。
検索クローラはWeb上で公開されている情報を網羅的に取得してデータベース化し、索引付けして高速に全文検索できるようにするもので、世界中の公開Webページを巡回して定期的にデータを取得する。ページの内容は解析され、見出しや文章を元に索引が作成される他、検索結果に内容の要約や抜粋が表示されることもある。ページ内でリンクとして設定されているURLなどをたどってサイト内の別のページや他のWebサイトを芋づる式に発見していく。
クローラはHTTPヘッダのユーザーエージェント(UA)文字列で「○○bot」「×× Crawler」などと名乗り、運用しているサイトのURLやドメイン名、連絡先アドレスなどを併記していることが多いが、一般的なWebブラウザのUA名を名乗ってなりしましているものもある。
Webサイト管理者はサイトの最上位階層(ルート)のディレクトリに「robots.txt」という名前のファイルを作成し、クローラがアクセス可能な範囲やアクセスを禁止するファイルやディレクトリなどを指定することができる。クローラすべてを対象とすることも、特定のクローラのみを名指しで指定することもできるが、クローラ側が従うかどうかは開発者や運用者次第であり強制力はない。
(2018.9.29更新)