robots.txt

概要

robots.txtとは、Webページを自動的にダウンロードするソフトウェア(Webクローラー)に対し、アクセスされるWebサイト側でその挙動や制限を指定する設定ファイル

クローラー(ロボット、ボットなどとも呼ばれる)はWeb検索エンジンや広告配信サービスなどが運用しているシステムで、インターネット上に公開されているWebサイトを渡り歩き、内部のページや掲載コンテンツを収集していく。

どのページを収集するかなどクローラーの挙動は運用者側が決めるが、robots.txtファイルを置くことでサイト側が要請を行うことができる。robots.txtを尊重してその指示に従うかどうかはクローラー側で決められるため、robots.txtを無視する「行儀の悪い」クローラーも存在する。

robots.txtは平易なテキスト(文字)ファイルで、サイトの最上位階層(/)に配置する。例えば、https://www.example.jp/ について記述したファイルは https://www.example.jp/robots.txt に置かなければならない。サブドメインに独自のrobots.txtを置くことはできるが、サブディレクトリに置くことはできない(無視される)。

なお、robots.txtと同様の要請は、WebページHTMLファイルヘッダ領域中にmetaタグを用いて <meta name="robots" content="…"> のように記述することで行うこともできる。個別のクローラーを指定したい場合は「robots」の部分を「Googlebot 」のようにクローラー名に変更する。

記述形式

User-agent:」フィールドクローラー名(ユーザーエージェント名)を指定して、そのクローラーアクセスしてはいけないファイルディレクトリパス)のリストを「Disallow:」フィールドで、アクセスしても良いパスを「Allow:」フィールドで指定する。「Sitemap:」フィールドXMLサイトマップの位置を伝達することもできる。

パスの指定はファイル単位やディレクトリ単位のほか、一部を「*」とすることでワイルドカード指定(任意の文字列に一致)することもできる。クローラー名を「*」とすればすべてのクローラーを対象とすることができ、パスを「*」とすればサイト全体を対象とすることができる。

パス指定は先頭一致となるため、「/somedir/」という指定は/somedir/ 以下のすべて」という意味になるが、「$」を用いることでパスの末尾を指定することができる。例えば、「/*.png$」のように指定すれば、「サイト内の .png で終わるファイルすべて」、すなわちPNGファイルすべてという意味になる。

例えば、1行目に「User-agent: Googlebot」、2行目に「Disallow: /nosearch/」とすれば、「Google社クローラーは/nosearch/ディレクトリ以下にはアクセス禁止」という意味になる。一つのUser-agent:に複数のDisallow:やAllow:を指定したり、複数のUser-agent:とルールのセットを記述することもできる。

(2023.8.13更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。