GGML【Georgi Gerganov Machine Learning】
GGMLとは?

通常、最新の大規模言語モデル(LLM)を動かすには高性能なGPUと大容量のメモリが必要であり、一般の利用者が手軽に試せる環境ではなかった。GGMLはこの障壁を下げるため、「量子化」と呼ばれる圧縮技術を採用し、必要な計算資源を劇的に削減する。
AIモデルにおける量子化とは、モデルのパラメータを通常の32ビットや16ビットの浮動小数点数から4ビットや8ビットの整数へと落とし込む処理で、ファイルサイズとメモリ使用量を大幅に削減できる。精度はわずかに低下するものの、会話や文章生成といった一般的な用途では実用上の支障はほとんどない。
内部構造としては、計算グラフをあらかじめ構築して順に実行する方式が採用されており、CPUのSIMD命令を活かした行列演算やベクトル演算の最適化が施されている。外部の深層学習フレームワークに依存しない単純な構成のため、WindowsやmacOS、Linuxをはじめ、スマートフォンや組み込み機器など幅広い環境で動作する。依存関係の管理が少なく済む点も、広く普及した一因である。
GGMLが一躍注目を集めたのは、同氏が開発した「llama.cpp」がきっかけである。米メタ(Meta Platforms)社の「LLaMA」モデルをGGML形式に変換し、一般的なパソコン上での動作に成功したこのプロジェクトは、公開直後から世界中の開発者の注目を集めた。これを機に、Hugging Faceなどのプラットフォームには量子化済みモデルが多数公開され、専用ハードウェアを持たない利用者でもローカルでLLMを試せる環境が広がった。
2023年にはファイル形式としてGGMLの後継として「GGUF」形式が登場した。メタデータの扱いや拡張性が改善されており、llama.cppをはじめOllamaやLM StudioといったローカルLLM実行ツールがGGUFを標準として採用するようになっている。GGML形式が直接使われる場面は減りつつあるが、その設計思想はGGUFに引き継がれ、クラウドに頼らず手元の端末でAIを動かすという実践の基盤となっている。