読み方 : ジージーユーエフ

GGUF【GPT-Generated Unified Format】

GGUFとは?

大規模言語モデルLLM)をローカル環境へ配布して実行するためのファイル形式の一つ。2023年にllama.cppプロジェクトが導入し、前身であるGGML形式の後継として広く普及している。モデルをバイナリデータとして格納する。
GGUFのイメージ画像

LLMは数十億から数百億のパラメータ(重みデータ)を持ち、その保存には語彙情報やトークナイザーの設定、推論に必要な様々な補助的なデータが伴う。GGML形式ではこれらが複数ファイルに分散し、コードへのハードコードが必要な場面も多く、環境の違いによる互換性の問題が頻発していた。GGUFはこれらすべてを単一の構造化されたファイルにまとめることで、実行側が追加の設定ファイルを用意せずにモデルを起動できる設計になっている。

GGUFは量子化されたモデルの保存を前提に設計されている。量子化とは、重みデータの数値精度を意図的に下げてデータ量を削減する手法で、32ビットや16ビットで表されていたパラメータを4ビット整数に変換すると、ファイルサイズは数分の一に圧縮される。精度はわずかに低下するものの、多くの用途では実用上問題ない水準に収まる。GGUFは量子化方式やビット幅などの情報をメタデータとして記録できるため、異なる量子化レベルのモデルを同じ仕組みで扱うことができる。

また、GGUFはメモリマップを活用した効率的な読み込みに対応しており、大容量モデルでも必要な部分だけを随時読み込んで処理を進められる。これにより、GPU側のメモリが不足する場合でも、メインメモリで補いながら動作を継続できる。高性能なGPUがなくても、一般的なパソコンのCPUメモリだけでLLMを動作させることができる。

GGUFは「Ollama」や「LM Studio」などのローカルLLM実行ツール、「Hugging Face」などのモデル配布プラットフォームで標準的に採用されている。PyTorchで学習されたモデルを変換スクリプトでGGUF形式に書き換えて利用するのが一般的な手順である。ローカルLLMは企業や官公庁で機密情報やプライバシーの保護などために導入される場合があり、教育機関などでは最新のAI技術に触れる機会を広げる役割も果たしている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。