読み方 : ワークけいしき
WARC形式【Web Archive format】ARC形式
概要

WARCファイルは複数の「レコード」を連結した構造となっており、一つのレコードはデータの属性を示すヘッダー部分と、実際のコンテンツであるペイロード部分で構成される。チェックサム情報が記録され、保存されたデータが取得時以降に編集・改竄されていないか検証することもできる。
Webページを構成するHTMLファイルや画像、スタイルシート、スクリプトなどのほか、MIMEタイプなどデータについてのデータ(メタデータ)、ページ取得時のサーバとの通信内容(HTTPリクエストやHTTPレスポンス)も含め保存する。巨大なファイルサイズになっても、特定のレコードを効率よく抽出できるような索引付けが容易な設計となっている。
元になったファイル形式はインターネットアーカイブ(Internet Archive)が開発し、内部的に利用していた「ARC」形式で、これを拡張してWARC仕様が策定された。2009年にISOによってISO 28500として標準化されており、公的機関などでも広く利用されている。Internet ArchiveやCommon Crawlのような民間のWebアーカイブ構築プロジェクトのほか、米国議会図書館や日本の国会図書館のWebサイト収集・保存事業などでも採用されている。