テキスト形式【text format】テキストデータ/text data
現代のコンピュータシステムにおいて、すべての情報は究極的には二進数、すなわちビット列として表現されている。人間が使用する自然言語の文字や記号をコンピュータで扱うためには、特定の数値(ビット列のパターン)と特定の文字を対応付ける規則が必要で、この規則を「文字コード」(character code)という。
例えば、最も基本的な文字コードの一つである「ASCII」(American Standard Code for Information Interchange)では、1バイト(8ビット)で一つの文字を表現する。大文字・小文字のアルファベット、数字、一部の記号などが定義されている。例えば、アルファベットの「A」は、十進数の「65」という数値、二進数では「1000001」というビット列に対応付けられている。
テキスト形式のデータは、こうした文字コードによって規定された自然言語の文字と、データの整形や構造を補助するための少数の制御コード(改行、タブ、スペースなど)のみによって構成される。この特性により、特定のアプリケーションソフトやオペレーティングシステム(OS)の仕様に強く依存することなく、普遍的に作成、表示、編集、交換ができる。高い汎用性と互換性を持つデータ形式である。
バイナリ形式
テキスト形式と対照的な概念として、「バイナリ形式」(binary format)が存在する。これは、コンピュータプログラムによる読み書きや処理を主目的とし、文字コードの規約を必ずしも用いることなく、任意のビット列によって構成されるデータ形式である。画像データ(JPEGやPNGなど)、音声データ(MP3やWAVなど)、動画データ(MP4など)、実行可能形式のプログラムなどが該当する。
これらのデータは、特定の構造とビット列のパターンを持っており、専用のソフトウェアがその構造を解釈しなければ、人間が直接ビット列を見ても意味を理解することはできない。文字情報以外の多種多様なデータを効率的に格納し、高速に処理するのに適しているが、人間による直接的な可読性は低い。
広義と狭義の区別
「テキスト形式」という用語は、その使用される文脈によって、指し示す範囲が異なる場合がある。広義のテキスト形式は、前述の定義に基づき、文字によって構成されたデータ全般を意味し、これには文字の並び自体がコンピュータに対する構造的な指示や命令を含むファイルも含まれる。
具体的には、Webページを記述するための「HTML」(HyperText Markup Language)形式や、さまざまなデータを構造化して記述する「XML」(Extensible Markup Language)形式、プログラミング言語で書かれたソースコードファイルなどが該当する。これらのデータは文字で構成されているものの、単なる文章ではなく、特定の語彙や記法、構文規則に従って記述された「命令」としての役割を含んでいる。
一方で、狭義のテキスト形式、あるいは、その純粋な形態を特に強調して指す場合、「プレーンテキスト」(plain text)という用語が用いられる。プレーンテキストは、HTMLのタグやプログラムの命令、フォントや文字の装飾、レイアウト情報といったコンピュータ向けの制御情報や構造化情報を含まず、純粋に人間向けに書かれたデータである。
