UTF-16 【UCS/Unicode Transformation Format 16】 UTF-16BE / UTF-16LE
概要
UTF-16(UCS/Unicode Transformation Format 16)とは、UnicodeおよびISO/IEC 10646で規定された文字符号化方式(文字エンコーディング)の一つで、2バイト(16ビット)の固定長でコードを表現する符号化方式。U+0000からU+FFFFの基本多言語面(BMP)収録文字についてはコードポイントをそのまま文字符号とする。U+10000以降の拡張領域に収録された文字はサロゲートペアの仕組みを用い、U+D800~U+DBFFから一つ、U+DC00~U+DFFFから一つを選んで組み合わせ、4バイトで表現する。
一文字を連続した複数バイトの整数値で表現するため、上位バイトが先頭側か末尾側かによって異なるバイト列となる。上位バイトが先頭側になるように並べる方式をUTF-16BE(Big Endian)、上位バイトが末尾側になるように並べる方式をUTF-16LE(Little Endian)という。
文字コードの指定などでバイト順を伝達できない場合、文書やデータの先頭にバイト順を示すBOM(Byte Order Mark)と呼ばれる符号を記載して指定するよう規定されており、UTF-16BEの場合は16進数4桁で「FE FF」、UTF-16LEの場合は「FF FE」と記載する。
(2023.3.10更新)