マルチバイト文字 【多バイト文字】 MBCS / Multibyte Character Set
概要
マルチバイト文字(多バイト文字)とは、コンピュータで文字を扱えるよう各文字に番号を対応付ける文字コードや文字セットのうち、一文字を2バイト以上のデータ量で表すもの。また、そのようなコード体系によって表される文字。東アジア諸語のように文字の数が多く1バイト(0~255)の値では表しきれない国や地域では、早くから多バイトの文字セットや文字コードの規格が整備されてきた。日本語などは2バイトで表すコードが普及しているため、2バイトのものを特に「2バイト文字」「ダブルバイト文字」(DBCS:Double-Byte Character Set)ということもある。
例えば、日本のJIS X 0208(JIS基本漢字)は英数字、記号、ギリシャ文字、キリル文字、ひらがな、カタカナ、漢字などが収録され、各文字を2バイト(0~65,535)の番号で識別する2バイトの文字セット(文字集合)規格である。
また、これを符号化する方式を定めた「JISコード」「Shift JISコード」「EUC-JP」などの文字コード(文字エンコーディング)規格は、文字セットに収録された各文字の識別番号を2バイトのビット列に符号化する変換方法を定めた2バイト文字コードと言える。
一方、ASCIIコード(7ビット)や、これを拡張して欧州諸語のアルファベットなどを収録したISO/IEC 8859のような8ビットのコードは「1バイト文字」「シングルバイト文字」(SBCS:Single-Byte Character Set)という。また、UnicodeやUTFは全体としてはマルチバイトだが、UTF-8はASCIIの範囲の文字は1バイトで表す特殊なコード体系となっている。
(2018.6.7更新)