読み方 : もじエンコーディング
文字エンコーディング【character encoding】
概要

コンピュータは内部ですべての情報を数値として処理するため、そのままでは「あ」や「A」といった文字を認識できない。そこで、あらかじめ文字と番号の対応表である文字セット(文字集合)を作成し、データ中にある番号が現れたら、対応する文字とみなすという仕組みで文字を表現する。
文字セットの規格で定められた番号を、具体的なビット列(コード)に変換する規則が文字エンコーディングである。ASCIIのように番号をそのままコードとして用いる規格もあるが、日本語の文字コード規格などではASCII文字との共存など様々な事情から、一定の変換規則に従って番号を別のビット列に変換する符号化(エンコーディング)が行われる。
文字エンコーディングの例
例えば、「あ」という文字は文字セットのJIS規格であるJIS X 0213では「1面4区2点」という3つの番号の組み合わせで指し示されるが、JIS漢字コードには主要な文字エンコーディングが3つあり、それぞれ異なるビット列に変換される。「JISコード」(ISO-2022-JP)では16進数で「1b24」、「Shift JIS」では「82a0」、「EUC-JP」では「a4a2」となる。
世界の様々な言語の文字を一つの体系で扱う「Unicode」でも、文字集合に対して複数の文字エンコーディングが定められている。文字集合の番号をそのままコードとして用いる「UTF-16」や「UTF-32」、ASCIIと互換性のある可変長のバイト列に変換する「UTF-8」などがあり、最も普及しているのはUTF-8となっている。