BOM 【Byte Order Mark】 バイトオーダーマーク / バイト順マーク

概要

BOM(Byte Order Mark)とは、Unicodeで記述された文書の冒頭に記載される短い符号で、使用されている文字符号化方式(文字エンコーディング)の種類や、そのバイト順(エンディアン)を指定するためのもの。

文書がUnicode文字列であることを示したり、一文字を複数バイトで表す際のバイト列の並び順(上位側が先か下位側が先か)を規定する。符号化方式によって2~4バイトバイト列が決められており、BOMを記述しないよう規定された符号化方式もある。

UnicodeにはUTF-8UTF-16など複数の符号化方式が規定されており、同じ文字でも符号化方式が異なれば違うバイト列で表現される。また、例えば同じUTF-16でも、機種や処理系の違いによって、ある文字を表すバイト列を上位バイトが先頭側になるように並べる(ビッグエンディアン)か、下位バイトが先頭側になるように並べる(リトルエンディアン)かという表現形式の違いがある。

UTF-8では16進数で先頭から順に(以下同)「EF BB BF」がBOMだが、これを記述しないUTF-8Nが用いられる場合もある。UTF-16ではビッグエンディアンの場合は「FE FF」、リトルエンディアンの場合は「FF FE」と記述する。符号化方式の指定にバイト順の指定も含める「UTF-16BE」(Big Endian)や「UTF-16LE」(Little Endian)の場合はBOMは記載しない。

UTF-32ではビッグエンディアンの場合は「00 00 FE FF」、リトルエンディアンの場合は「FF FE 00 00」がBOMとなる。UTF-16の場合と同じように、UTF-32BEUTF-32LEを直接指定する場合はBOMは記載しない。

(2018.9.5更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる