読み方 : テキストけいしき

テキスト形式【text format】テキストデータ/text data

概要

テキスト形式とは、コンピュータ向けのコードなどを含まず、人間が読むことのできる文字のみで構成されたデータのこと。ある文字コードで文字として規定される範囲のデータのみを含む。

現代のコンピュータシステムにおいて、すべての情報は究極的には二進数、すなわちビット列として表現されている。人間が使用する自然言語の文字や記号をコンピュータで扱うためには、特定の数値(ビット列のパターン)と特定の文字を対応付ける規則が必要で、この規則を「文字コード」(character code)という。

例えば、最も基本的な文字コードの一つである「ASCII」(American Standard Code for Information Interchange)では、1バイト(8ビット)で一つの文字を表現する。大文字・小文字のアルファベット、数字、一部の記号などが定義されている。例えば、アルファベットの「A」は、十進数の「65」という数値、二進数では「1000001」というビット列に対応付けられている。

テキスト形式のデータは、こうした文字コードによって規定された自然言語の文字と、データの整形や構造を補助するための少数の制御コード改行タブ、スペースなど)のみによって構成される。この特性により、特定のアプリケーションソフトオペレーティングシステム(OS)の仕様に強く依存することなく、普遍的に作成、表示、編集、交換ができる。高い汎用性と互換性を持つデータ形式である。

バイナリ形式

テキスト形式と対照的な概念として、「バイナリ形式」(binary format)が存在する。これは、コンピュータプログラムによる読み書きや処理を主目的とし、文字コードの規約を必ずしも用いることなく、任意のビット列によって構成されるデータ形式である。画像データJPEGPNGなど)、音声データMP3WAVなど)、動画データMP4など)、実行可能形式のプログラムなどが該当する。

これらのデータは、特定の構造とビット列のパターンを持っており、専用のソフトウェアがその構造を解釈しなければ、人間が直接ビット列を見ても意味を理解することはできない。文字情報以外の多種多様なデータを効率的に格納し、高速に処理するのに適しているが、人間による直接的な可読性は低い。

広義と狭義の区別

「テキスト形式」という用語は、その使用される文脈によって、指し示す範囲が異なる場合がある。広義のテキスト形式は、前述の定義に基づき、文字によって構成されたデータ全般を意味し、これには文字の並び自体がコンピュータに対する構造的な指示や命令を含むファイルも含まれる。

具体的には、Webページを記述するための「HTML」(HyperText Markup Language)形式や、さまざまなデータ構造化して記述する「XML」(Extensible Markup Language)形式、プログラミング言語で書かれたソースコードファイルなどが該当する。これらのデータは文字で構成されているものの、単なる文章ではなく、特定の語彙や記法、構文規則に従って記述された「命令」としての役割を含んでいる。

一方で、狭義のテキスト形式、あるいは、その純粋な形態を特に強調して指す場合、「プレーンテキスト」(plain text)という用語が用いられる。プレーンテキストは、HTMLタグプログラムの命令、フォントや文字の装飾、レイアウト情報といったコンピュータ向けの制御情報や構造化情報を含まず、純粋に人間向けに書かれたデータである。

他の辞典等による「テキスト形式」の解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。