読み方 : エントロピーふごうか

エントロピー符号化【entropy encoding】エントロピーエンコーディング

エントロピー符号化とは?

データ圧縮技術の分類の一つで、データに含まれる各記号の出現頻度に応じてビット列の長さを変えることで、データ全体のサイズを圧縮するもの。可逆圧縮の一手法であり、圧縮後のデータを元の状態に完全に復元できる。
エントロピー符号化のイメージ画像

頻繁に登場する記号には短いビット列を、めったに登場しない記号には長いビット列を割り当てることで、全体の平均ビット数を減らす仕組みである。例えば、英語の文章であれば、「e」や「t」のような出現頻度の高い文字を短い符号に置き換え、「z」や「q」のような稀な文字は長い符号で置き換えれば、もとのデータより短い符号列で表すことができる。

情報エントロピーとは統計力学のエントロピーに着想を得た情報理論の概念で、各事象の情報量の平均を意味する。出現確率が均等に近いほどエントロピーは高く、偏りが大きいほど低くなる。エントロピー符号化はこの値に近い圧縮率を理論的な上限として目指す手法であり、名称もこれに由来する。

具体的な符号の割り当て方法にはいくつかの手法が提案されており、「ハフマン符号化」と「算術符号化」がよく知られている。ハフマン符号化は記号ごとに固定のビット列を割り当てる方式で、実装がシンプルなためZipJPEGなど多くの圧縮形式で採用されている。算術符号化はデータ全体を一つの小数として表現する方式で、計算量は多いが理論上のエントロピーにより近い圧縮率を実現できる。

エントロピー符号化単体では圧縮効率に限界があるため、実際の圧縮形式では他の手法と組み合わせて使われることが多い。例えば、Deflate形式では、繰り返しパターンを参照に置き換えるLZ77アルゴリズムで前処理を行ったうえで、ハフマン符号化を適用する構成となっている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。