GPTQ【Generalized Post-Training Quantization】
GPTQとは?

機械学習モデルにおける量子化(quantization)とは、モデルの重みを表現する数値の精度を意図的に下げ、データ量と計算量を削減する技術である。通常の学習済みモデルは16ビットや32ビットの浮動小数点数で重みを保持しているが、GPTQはこれを少ないビット数の整数による表現に置き換える。
変換後の整数のビット数としては、8ビット(0~255)、4ビット(0~15)、3ビット(0~7)、2ビット(0~3)が選択できる。一般的な量子化では値を単純に最も近い整数値に丸めるが、GPTQでは各重みがモデル全体の出力に与える影響を数学的に解析し、誤差を補正しながら順次変換を進める。この処理は推論の前段階で一度だけ実行すればよく、以後の動作には圧縮後のモデルをそのまま使用する。
この手法の最大の利点は、消費するメモリを大幅に削減できることである。一般的な数十億〜数百億パラメータのモデルは、元の精度のままでは数十〜百数十GBのメモリを必要とし、一般的なハードウェアでは動作させることが難しい。GPTQで量子化を行うと、必要なメモリ量を数分の一に抑えられる。データの読み出し速度も上がるため、生成速度が向上するという効果も得られる。
一方、ビット数を減らすほど精度の劣化が生じる点は避けられない。生成品質や推論精度が元のモデルと比べてわずかに低下するため、用途に応じてどのビット数へ変換するかの判断が必要となる。実用上問題のない範囲に劣化を抑えつつ動作環境のハードルを下げるバランスが、この技術の肝となっている。
GPTQはAIモデル公開プラットフォーム「Hugging Face」のエコシステムと統合されており、「auto-gptq」などのオープンソースライブラリを通じて利用できる。オープンソースコミュニティでは、新しいモデルが公開されると間もなくGPTQ形式に変換・配布されるのが一般的になっており、「Llama」や「Mistral」といった人気モデルのGPTQ版が広く出回っている。高性能なAIを個人の手元の環境で動かすための現実的な技術として、今日のローカルLLM活用を支えている。