GGUF【GPT-Generated Unified Format】
GGUFとは?

LLMは数十億から数百億のパラメータ(重みデータ)を持ち、その保存には語彙情報やトークナイザーの設定、推論に必要な様々な補助的なデータが伴う。GGML形式ではこれらが複数ファイルに分散し、コードへのハードコードが必要な場面も多く、環境の違いによる互換性の問題が頻発していた。GGUFはこれらすべてを単一の構造化されたファイルにまとめることで、実行側が追加の設定ファイルを用意せずにモデルを起動できる設計になっている。
GGUFは量子化されたモデルの保存を前提に設計されている。量子化とは、重みデータの数値精度を意図的に下げてデータ量を削減する手法で、32ビットや16ビットで表されていたパラメータを4ビット整数に変換すると、ファイルサイズは数分の一に圧縮される。精度はわずかに低下するものの、多くの用途では実用上問題ない水準に収まる。GGUFは量子化方式やビット幅などの情報をメタデータとして記録できるため、異なる量子化レベルのモデルを同じ仕組みで扱うことができる。
また、GGUFはメモリマップを活用した効率的な読み込みに対応しており、大容量モデルでも必要な部分だけを随時読み込んで処理を進められる。これにより、GPU側のメモリが不足する場合でも、メインメモリで補いながら動作を継続できる。高性能なGPUがなくても、一般的なパソコンのCPUとメモリだけでLLMを動作させることができる。
GGUFは「Ollama」や「LM Studio」などのローカルLLM実行ツール、「Hugging Face」などのモデル配布プラットフォームで標準的に採用されている。PyTorchで学習されたモデルを変換スクリプトでGGUF形式に書き換えて利用するのが一般的な手順である。ローカルLLMは企業や官公庁で機密情報やプライバシーの保護などために導入される場合があり、教育機関などでは最新のAI技術に触れる機会を広げる役割も果たしている。