読み方 : ワークけいしき

WARC形式【Web Archive format】ARC形式

概要

WARC形式とは、Webページや付随する関連コンテンツを一括して保存するための標準ファイル形式。Webアーカイブ構築のためのデータ形式として標準化されており、世界中の図書館や研究機関などで利用されている。
WARC形式のイメージ画像

WARCファイルは複数の「レコード」を連結した構造となっており、一つのレコードデータの属性を示すヘッダー部分と、実際のコンテンツであるペイロード部分で構成される。チェックサム情報が記録され、保存されたデータが取得時以降に編集・改竄されていないか検証することもできる。

Webページを構成するHTMLファイルや画像、スタイルシートスクリプトなどのほか、MIMEタイプなどデータについてのデータメタデータ)、ページ取得時のサーバとの通信内容(HTTPリクエストHTTPレスポンス)も含め保存する。巨大なファイルサイズになっても、特定のレコードを効率よく抽出できるような索引付けが容易な設計となっている。

元になったファイル形式はインターネットアーカイブ(Internet Archive)が開発し、内部的に利用していた「ARC」形式で、これを拡張してWARC仕様が策定された。2009年にISOによってISO 28500として標準化されており、公的機関などでも広く利用されている。Internet ArchiveやCommon Crawlのような民間のWebアーカイブ構築プロジェクトのほか、米国議会図書館や日本の国会図書館のWebサイト収集・保存事業などでも採用されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。