読み方 : エントロピーふごうか
エントロピー符号化【entropy encoding】エントロピーエンコーディング
エントロピー符号化とは?

頻繁に登場する記号には短いビット列を、めったに登場しない記号には長いビット列を割り当てることで、全体の平均ビット数を減らす仕組みである。例えば、英語の文章であれば、「e」や「t」のような出現頻度の高い文字を短い符号に置き換え、「z」や「q」のような稀な文字は長い符号で置き換えれば、もとのデータより短い符号列で表すことができる。
情報エントロピーとは統計力学のエントロピーに着想を得た情報理論の概念で、各事象の情報量の平均を意味する。出現確率が均等に近いほどエントロピーは高く、偏りが大きいほど低くなる。エントロピー符号化はこの値に近い圧縮率を理論的な上限として目指す手法であり、名称もこれに由来する。
具体的な符号の割り当て方法にはいくつかの手法が提案されており、「ハフマン符号化」と「算術符号化」がよく知られている。ハフマン符号化は記号ごとに固定のビット列を割り当てる方式で、実装がシンプルなためZipやJPEGなど多くの圧縮形式で採用されている。算術符号化はデータ全体を一つの小数として表現する方式で、計算量は多いが理論上のエントロピーにより近い圧縮率を実現できる。
エントロピー符号化単体では圧縮効率に限界があるため、実際の圧縮形式では他の手法と組み合わせて使われることが多い。例えば、Deflate形式では、繰り返しパターンを参照に置き換えるLZ77アルゴリズムで前処理を行ったうえで、ハフマン符号化を適用する構成となっている。