読み方 : モデルあっしゅく

モデル圧縮【model compression】

概要

モデル圧縮とは、ニューラルネットワークの予測精度や性能をなるべく維持しながら、データサイズを小さくして推論に必要な計算量や記憶容量を削減すること。メモリ容量や演算能力に制限がある機器で効率的にモデルを動作させるために行われる。
モデル圧縮のイメージ画像

深層ニューラルネットワークは表現力が高く高い精度を得られる一方、近年では大規模化が進み、学習や推論に多くの計算資源を必要とする。計算能力やメモリ容量、消費電力に制約のあるモバイル端末やIoTデバイス、自動運転のようなリアルタイム処理が求められる場面では、そのまま利用することが困難となる場合がある。

モデル圧縮は、このような制約に対応するため、学習済みのモデルに含まれる冗長な表現や必要性の薄い計算を削減し、性能をなるべく維持しながらスリムで効率的なモデルに再編成する。これにより、クラウド環境の強力なサーバ上で実行していたモデルを、利用者の手元の端末や車載機器などに移して低遅延で高速に実行するといった使い方が可能となる。

具体的な手法としては、ネットワーク内の重要度の低いパラメータや構造を削ぎ落とす「プルーニング」(pruning)、パラメータの数値をより少ないビット数で表現する「量子化」(quantization)、巨大なモデルの知識を小さなモデルに継承させる「蒸留」(distillation)などがある。これらは単独で用いられることもあれば、組み合わせて適用されることもある。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。