読み方 : もじエンコーディング

文字エンコーディング【character encoding】

概要

文字エンコーディングとは、コンピュータが文字を扱うために、各文字に割り当てられた固有の番号を具体的な「0」と「1」の並んだビット列に変換する規則。一つの文字コード規格に複数の文字エンコーディング方式が定められることが多い。
文字エンコーディングのイメージ画像

コンピュータは内部ですべての情報を数値として処理するため、そのままでは「あ」や「A」といった文字を認識できない。そこで、あらかじめ文字と番号の対応表である文字セット文字集合)を作成し、データ中にある番号が現れたら、対応する文字とみなすという仕組みで文字を表現する。

文字セットの規格で定められた番号を、具体的なビット列(コード)に変換する規則が文字エンコーディングである。ASCIIのように番号をそのままコードとして用いる規格もあるが、日本語の文字コード規格などではASCII文字との共存など様々な事情から、一定の変換規則に従って番号を別のビット列に変換する符号化(エンコーディング)が行われる。

文字エンコーディングの例

例えば、「あ」という文字は文字セットJIS規格であるJIS X 0213では「1面4区2点」という3つの番号の組み合わせで指し示されるが、JIS漢字コードには主要な文字エンコーディングが3つあり、それぞれ異なるビット列に変換される。「JISコード」(ISO-2022-JP)では16進数で「1b24」、「Shift JIS」では「82a0」、「EUC-JP」では「a4a2」となる。

世界の様々な言語の文字を一つの体系で扱う「Unicode」でも、文字集合に対して複数の文字エンコーディングが定められている。文字集合の番号をそのままコードとして用いる「UTF-16」や「UTF-32」、ASCII互換性のある可変長バイト列に変換する「UTF-8」などがあり、最も普及しているのはUTF-8となっている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。