文字セット 【character set】 キャラクターセット / 文字集合 / charset
概要
文字セット(character set)とは、コンピュータ上で文字をデータとして表現したり交換できるようにするために、何らかの基準に基づいて文字を集めて定義した集合のこと。集めた文字をそれぞれ符号(コード)と対応付けて数値やビット列に置き換えて表現できるようにしたものを文字コードという。文字コード規格を定義する際、まず人間が使っている自然言語の文字から、どれを収録するかを決定する必要がある。あるコード体系に収録すると決められた文字の集合のことをレパートリー(repertoire)という。規格によってはこれを文字セットと呼ぶこともある。
レパートリーが決定されると、それぞれの文字に対して通し番号のような一意の符号(ビット列)が与えられ、それがコンピュータ内でのその文字のデータ表現となる。固有の符号が与えられた文字の集合のことを符号化文字集合(CCS:Coded Character Set)という。
最後に、CCS内の各符号を一定の規則に基づいて特定のビット列表現に変換する文字符号化方式(CES:Character Encoding Scheme)が定められ、これを用いて実際の文字データが記述される。一般に文字コードと呼ばれるもの(Shift_JISやUTF-8など)は、最後の符号化方式のことを指す。
CCSの各文字の符号を(ほぼ)そのまま文字コードとして使用する符号化方式もある(JIS区点コードやUTF-16など)が、様々な事情からあまり一般的に用いられることはない。
また、一つのCCSに対して複数の符号化方式が策定され、環境や状況に応じて使い分けられる場合もある。例えば、世界中の文字を収録した文字セットの国際標準であるUnicodeあるいはUCS(Universal Character Set)にはUTF-8やUTF-16、UTF-32などの符号化方式があり、日本語文字セットの標準規格として知られるJIS X 0208にはISO-2022-JP(JISコード)やEUC-JP、Shift_JISなどの符号化方式が存在する。
(2018.12.18更新)