読み方 : ジーピーティーキュー

GPTQ【Generalized Post-Training Quantization】

GPTQとは?

大規模言語モデルLLM)の内部パラメータを低ビット数の整数に変換することでモデルを圧縮・軽量化する量子化手法。学習済みモデルにそのまま適用できるため、再学習なしに一般的なハードウェアでの動作を可能にする。
GPTQのイメージ画像

機械学習モデルにおける量子化quantization)とは、モデルの重みを表現する数値の精度を意図的に下げ、データ量計算量を削減する技術である。通常の学習済みモデルは16ビットや32ビット浮動小数点数で重みを保持しているが、GPTQはこれを少ないビット数の整数による表現に置き換える。

変換後の整数のビット数としては、8ビット(0~255)、4ビット(0~15)、3ビット(0~7)、2ビット(0~3)が選択できる。一般的な量子化では値を単純に最も近い整数値に丸めるが、GPTQでは各重みがモデル全体の出力に与える影響を数学的に解析し、誤差を補正しながら順次変換を進める。この処理は推論の前段階で一度だけ実行すればよく、以後の動作には圧縮後のモデルをそのまま使用する。

この手法の最大の利点は、消費するメモリを大幅に削減できることである。一般的な数十億〜数百億パラメータのモデルは、元の精度のままでは数十〜百数十GBのメモリを必要とし、一般的なハードウェアでは動作させることが難しい。GPTQで量子化を行うと、必要なメモリ量を数分の一に抑えられる。データの読み出し速度も上がるため、生成速度が向上するという効果も得られる。

一方、ビット数を減らすほど精度の劣化が生じる点は避けられない。生成品質や推論精度が元のモデルと比べてわずかに低下するため、用途に応じてどのビット数へ変換するかの判断が必要となる。実用上問題のない範囲に劣化を抑えつつ動作環境のハードルを下げるバランスが、この技術の肝となっている。

GPTQはAIモデル公開プラットフォームHugging Face」のエコシステムと統合されており、「auto-gptq」などのオープンソースライブラリを通じて利用できる。オープンソースコミュニティでは、新しいモデルが公開されると間もなくGPTQ形式に変換・配布されるのが一般的になっており、「Llama」や「Mistral」といった人気モデルのGPTQ版が広く出回っている。高性能なAIを個人の手元の環境で動かすための現実的な技術として、今日のローカルLLM活用を支えている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。