テキスト 【text】
概要
テキスト(text)とは、本、文章、本文、原本などの意味を持つ英単語。IT分野では、(他の形態と対比して)文字データのことをテキストという。一般の外来語としては「教科書」を意味するが、これは “textbook” (テキストブック)を略したもので “text” 単体に本来この意味はない。コンピュータではすべての情報を2進数の「0」と「1」が並んだデジタルデータとして表すが、人間の使っている自然言語(英語や日本語など)の文字を扱えるようにするため、特定のデジタル値(ビット列)と文字を対応付けた「文字コード」(character code)が規定されている。
デジタルデータのうち、何らかの文字コード規則に基づいて文字としての取り扱いが可能な値が並んでいるものをテキスト形式、テキストデータという。操作画面上には実際に文字が並んだ状態で表示され、キーボード操作などで入力や編集を行うことができる。
Webページや文書ファイルなど様々な種類のデータを組み合わせて構成されたデータでは、画像や図表、飾り、入力フォームなど他の要素と区別して、見出しや本文といった文字が並んでいる部分のことをテキストと呼ぶ。
バイナリとの違い
コンピュータでは画像や音声、動画、コンピュータプログラムなど、文字以外の様々な情報を扱うことができ、それらもすべてデジタルデータとして記録、処理される。文字コード規則が適用されず、何らかの(文字以外の)種類の情報を直接表すデータのことを「バイナリ」(binary)あるいは「バイナリ形式」「バイナリデータ」などという。
テキストベースのデータ形式とプレーンテキスト
若干紛らわしいが、コンピュータ上では「文字データの記述により文字以外の情報を表現する」といった手法が用いられることがある。その場合、記述されたデータは画像など文字以外の内容を表しているが、データ形式としてはバイナリではなくテキストである。
例えば、プログラミング言語で書かれたソースコードはコンピュータプログラムの一種だが、人間が読み書きできるようテキスト形式となっている。これをソフトウェアによる自動処理によりコンピュータが直に解釈できるバイナリ形式のプログラム(オブジェクトコード)に変換してから実行する。
テキスト形式のデータのうち、このようなソフトウェアが自動処理できる形式で記述されたデータ以外の単純なものを「プレーンテキスト」(plain text)と呼んで区別する場合がある。人間が読み書きするためだけに記述されたテキストデータであり、装飾や変換などされずそのままの形で表示・編集される。
ストリングとの違い
人間が記述しやすい仕様の高水準プログラミング言語にはテキストを扱うためのデータ型として文字列型が用意されていることが多く、プログラム中で文字列データの入出力や加工を行うことができる。このコンピュータプログラムが扱うデータとしての「文字列」は慣例として “string” (ストリング)と呼ぶことが多い。
意味上の違いはほとんどないが、古い時代のプログラミング言語は文字単体(一文字)を扱うデータ型しかなかったり、文字型と文字列型が異なるデータ型として分かれていたため、「任意の数の文字が連なったひとかたまりのデータ」を表すために “string” (ひも、糸、筋などの意)という呼び名が与えられた。