JIS漢字コード
概要
JIS漢字コードとは、JIS(日本工業規格)で定められた、日本で一般的に用いられる文字を集め一つずつ対応する符号を割り当てた文字集合の規格。1970年代からいくつかの規格番号にまたがって数次に渡り改訂されている。日本語文字を含む標準規格として国内で使用されるコンピュータやソフトウェア、データ形式などで広く採用されている。規格が直接定めているのは符号化文字集合で、収録する文字および標準的な字形、コンピュータ上で取り扱う際の一意の識別番号(符号/コードポイント)を定義している。
各文字の符号を特定のビット列として表す方法(文字符号化方式/狭義の文字コード)は当初の規格では定めていなかったが、JIS97からは既存の有力な方式を附属書に掲載するようになった。中でもJISコード(ISO-2022-JP)、Shift JIS、日本語EUC(EUC-JP)の三つがよく用いられる。
符号の形式
JIS漢字コードでは、表現できる文字(漢字、かな、英数字、記号など)を「図形文字符号表」にまとめている。当初の規格では表は縦94×横94の8,836の区画で構成され、縦の位置を「区」、横の位置を「点」としてそれぞれを1から94の整数で表す。例えば、4区の2点には「あ」が収録されており、これを「0402」あるいは「04,02」のように書き表す。
1区から8区までには英数字や記号、ひらがな、カタカナ、ギリシャ文字、キリル文字、罫線などが収録され、JIS第一水準漢字は16区から47区に、第二水準漢字は48区から84区までに収録されている。9~15区および85~94区は未定義で、この領域を勝手に使用することも禁じられている(規格外となる)。
JIS X 0213では従来の区点による領域を第1面とし、同じ広さの第2面を追加して文字を追加した。従来定義されていた文字も合わせて計1万字以上を収録している。
JIS C 6226:1978 (JIS78/78JIS)
最初のJIS漢字コードで、1978年に制定された。規格名は「情報交換用漢字符号系」。区と点による符号の表現形式などもこの規格で定められた。
当用漢字や人名用漢字、地名に頻出する漢字などから選定された、いわゆるJIS第1水準漢字2,965字と、使用頻度の劣るJIS第2水準漢字3,384字、ひらがなやカタカナ、いわゆる全角英数字、特殊文字(記号)など非漢字453字の計6,802字を収録した。
JIS C 6226:1983 (JIS83/83JIS)
JIS78の改訂版で、記号や罫線素片などが追加され計6,877字となったほか、一部の文字の区点位置の入れ替えや移動、字形の変更が行われた。
1987年にはJISに情報処理関連の規格を扱うX部門が新設されたため、従来のC部門(電気・電子)からの移転が行われ「JIS X 0208」という新しい規格番号が与えられた(内容は同じ)。
JIS X 0208:1990 (JIS90/90JIS)
JIS83の改訂版で、第2水準漢字の2文字追加、一部の漢字の字形の変更などが行われた。また、コード表中の空いている領域の用途を各企業などが自由に使って良いとする既定が追加された。
JIS X 0208:1997 (JIS97/97JIS)
JIS90の改訂版で、規格名が「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」に変更された。文字の追加や変更は行われず、主に規定や方式の追加や明確化などが行われた。
これまで規格上の定めのなかった符号化方式(文字エンコーディング)について、JISコード(ISO-2022-JP)やShift_JIS、EUC-JPなどに相当する方式が記載された。
各文字に名前が付与され、一部の文字について典拠が不明確だったのを調査して結果を記載した。自由とされてきた空き領域の使用が一転して原則禁止に変更された。
JIS X 0213:2000 (JIS2000/2000JIS)
JIS X 0208を拡張して新たに制定された規格で、規格名は「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」。
JIS X 0208に収録されたすべての文字に加え、JIS第3水準文字1,249字、JIS第4水準文字2,436字、非漢字659字が追加され、計11,223字が収録された。ほぼJIS X 0208の上位集合となっているが、一部異なる箇所がある。
従来の94区・94点の符号空間には収まりきらないため、区・点の上位に「面」が導入されコードポイントが面区点の3つの値で表されるようになった。JIS X 0208の文字を収録した第1面に第3水準漢字と非漢字(音声記号、学術記号、分数など)が追加され、新たに設けられた第2面に第4水準漢字が収録された。
JIS X 0213:2004 (JIS2004/2004JIS)
JIS2000の改訂版で、第3水準漢字が10字追加されたほか、一部の字形が変更された。また、従来規定されていた文字符号化方式をJIS X 0213の文字集合に対応させたISO-2022-JP-2004、Shift_JIS-2004、EUC-JP-2004などがそれぞれ定められた。