CSV 【Comma-Separated Values】 .csvファイル / カンマ区切り / コンマ区切り
概要
CSV(Comma-Separated Values)とは、テキスト(文字)データの形式の一つで、項目をカンマ「,」で区切って列挙したもの。複数の項目をレコードとしてまとめる場合は、改行でレコードの区切りを表す。標準のファイル拡張子は「.csv」。表形式で項目が並んだデータの保存に用いられる。表のように項目が縦横に並んだデータを記述することができる形式の一つで、表計算ソフトやデータベースソフトなど多くのソフトウェアが標準で対応している。異種システム間のデータ交換などで古くから広く用いられている。
実体は単純な記法のテキストデータであるため、対応プログラムの開発もしやすく、人間がテキストエディタなどで開いて直接読み書きすることも容易である。反面、アプリケーション固有の複雑なデータや動的なデータ(他のセルの参照や関数など)や、画像などのバイナリデータ、データ全体についての情報(メタデータ)などを記録するのには向いていない。
仕様のばらつき
システムによって「項目をカンマで区切る」以外の仕様には細かな差異がある。例えば、改行文字として「CR+LF」(16進数で0D+0A)を用いるシステムが多いが、システム標準のテキストデータの扱いの違いにより、「CR」(0D)のみの場合や「LF」(0A)のみの場合もある。
また、項目を二重引用符「"」や一重引用符「'」で囲むのを原則とする場合と、文字列型のデータのみを引用符で括る場合、項目内にカンマや引用符、改行など区切り文字が出現する場合に引用符で括る場合などがある。項目内に引用符が現れる場合は「,"私は""神""だ",」のように二文字連続とする。
慣例として先頭行を「氏名,住所,電話番号」のように項目名の列挙とすることが多く、アプリケーションで開いたときに最上段に項目名を表示させることができる。各列が何を表しているのか容易に把握することができるが、そのまま表示・編集することを意図しない自動処理用のファイルなどでは省略してデータ本体のみとすることも多い。
同じ用途の他形式
CSVと同じように、項目を記号文字や制御文字で分離して改行でレコードを区切る形式は他にもあり、タブ文字(16進数で09)で区切る「TSV」(Tab-Separated Values)形式や、スペース文字(16進数で20)で区切る「SSV」(Space-Separated Values)などがよく知られる。西欧の一部のように数値の桁区切りにカンマを用いる国では、CSVの区切り文字にカンマでなくセミコロン「;」を用いる場合もある。
Microsoft Excelなどの表計算ソフトでは表形式に項目を並べたワークシートを扱うが、標準では各アプリケーション固有のファイル形式(Excelの場合はXLSXファイルなど)でこれを保存する。ほとんどのソフトにはCSVファイルの取り込み(インポート)や書き出し(エクスポート)機能があるため、標準ファイル形式では対応できない他のアプリケーションとのデータ交換などの際にはCSVを利用することがある。
関連用語
他の辞典による解説 (外部サイト)
この記事を参照している文書など (外部サイト)
- 千葉県船橋市「船橋市オープンデータ推進に関する指針(ガイドライン)」(PDFファイル)にて引用 (2021年12月)
- 林野庁「林地台帳及び地図運用マニュアル」(PDFファイル)にて引用 (2020年6月)
- 宇宙航空研究開発機構(JAXA) 特別資料「JAXA認定部品 第20回 主任検査員研修報告」(PDFファイル)にて引用 (2007年3月)
- 国土交通省 都市交通調査・都市計画調査「都市計画GIS導入ガイダンス」にて参照 (2005年3月)
- 筑波大学技術報告 24号「パーソナルコンピュータによるCAMACデータ収集系」(PDFファイル)にて引用 (2004年4月)