クローラ【crawler】スパイダー
別名 :spider/検索ロボット/search robot/Webボット
概要

単にクローラといった場合はWeb検索エンジンが運用するものを指すことが多いが、Web上の情報を対象とした研究や調査などのために運用されているものや、スパム業者が公開メールアドレスを収集するために運用しているものもある。
検索クローラはWeb上で公開されている情報を網羅的に取得してデータベース化し、索引付けして高速に全文検索できるようにするもので、世界中の公開Webページを巡回して定期的にデータを取得する。ページの内容は解析され、見出しや文章を元に索引が作成される他、検索結果に内容の要約や抜粋が表示されることもある。ページ内でリンクとして設定されているURLなどをたどってサイト内の別のページや他のWebサイトを芋づる式に発見していく。
クローラはHTTPヘッダのユーザーエージェント(UA)文字列で「○○bot」「×× Crawler」などと名乗り、運用しているサイトのURLやドメイン名、連絡先アドレスなどを併記していることが多いが、一般的なWebブラウザのUA名を名乗ってなりしましているものもある。
Webサイト管理者はサイトの最上位階層(ルート)のディレクトリに「robots.txt」という名前のファイルを作成し、クローラがアクセス可能な範囲やアクセスを禁止するファイルやディレクトリなどを指定することができる。クローラすべてを対象とすることも、特定のクローラのみを名指しで指定することもできるが、クローラ側が従うかどうかは開発者や運用者次第であり強制力はない。
(2018.9.29更新)
「クローラ」の関連用語
他の用語辞典による「クローラ」の解説 (外部サイト)
- ウィキペディア「クローラ」
- 日経 xTECH NE用語「クローラー」
- Web担当者Forum 用語集「クローラー」
- MDN Web Docs 用語集「クローラー」
- 日本インタラクティブ広告協会 インターネット広告基礎用語集「クローラー」
- Insider's Computer Dictionary「検索ロボット」
- ミツエーリンクス Web「経営革新ツール」用語集「クローラー」
- MarkeZine マーケティング用語集「クローラー」
- ITパスポート用語辞典「クローラ」
- DIGIFUL 用語集「クローラ」
資格試験などの「クローラ」の出題履歴
▼ ITパスポート試験
【平28秋 問86】 全文検索型検索エンジンの検索データベースを作成する際に用いられ、Webページを自動的に巡回・収集するソフトウェアはどれか。