文字コード 【character code】 キャラクターコード

概要

文字コード(character code)とは、文字や記号をコンピュータ上でデータとして扱うために、一文字ずつ固有の識別番号を与えて区別できるようにした符号のこと。

コンピュータはすべての情報を「0」と「1」のを組み合わせたデジタルデータとして取り扱う。数値は2進数を用いることで容易に表現できるが、文字は字形そのものを画像や図形としてデータ化したものはデータ量が多く、これをそのまま繰り返し並べて文字データとすることは無駄が大きい。このため、各文字に短い識別番号(正確には0と1の並び:ビット)を与えて数字のとして文字列を表現するようになった。この数字と文字の対応関係を定めた規約が文字コードである。

最も普及しているASCII文字コードは英数字や制御文字、記号などを収録した7ビット(7桁のビット十進数では0~127)のコード体系であり、例えばアルファベットの大文字の「A」は65番(ビットで1000001)、小文字の「z」は122番(同1111010)などと定められている。あるデータASCII文字列であることが分かっていれば、番号との対応関係を元に文字の並びを知ることができる。

文字集合と符号化方式

文字コードを定義するには、どの言語を対象にどの文字を収録するかを決めなければならず、まず収録する文字(の字形)を特定して列挙した文字集合文字セット)を定める。その際、番号などは与えずにただ収録する文字群を定義したものをレパートリ、各文字に一意の番号を与えたものを符号化文字集合(CCS:Coded Character Set)という。

欧米圏の8ビット文字コード規格のように、符号化文字集合をそのまま文字コードとして利用することも多いが、漢字圏など収録文字数の多い言語では各文字に割り当てられた符号をどのようなビットで表現するかについて、いくつかの異なる方式を定めている場合があり、これを文字符号化方式(CES:Character Encoding Scheme/文字エンコーディング)という。

例えば、代表的な日本語の符号化文字集合の一つであるJIS X 0208規格に定められた符号をそのまま文字コードとしたものを区点コードというが、この文字集合を対象とする符号化方式としてJISコードShift JISコード日本語EUCEUC-JP)などが定められており、同じ文字でも符号化方式によってそれぞれ異なったビットで表現される。世界中の文字を収録したUnicodeでも、同じ文字集合に対してUTF-8UTF-16UTF-32など複数の異なる符号化方式が定義されている。

(2018.6.20更新)

文字コード用語辞典

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる