ローカルLLM【local LLM】
ローカルLLMとは?

ChatGPTやClaude、Geminiのような一般的な生成AIサービスは、入力した文字データをインターネット経由でサービス提供者のサーバに送信し、そこで処理した結果を受け取る仕組みになっている。送信したデータの扱いは事業者との契約条件に依存し、新しいモデルを開発するための学習データとして利用されることが多い。
一方、ローカルLLMではAIモデルを手元のシステムに導入し、そこで推論処理をすべて完結させるため、外部へのデータ送信が発生しない。機密情報や個人情報を扱う業務、あるいはインターネット接続のない閉じたネットワーク内やオフライン環境での運用が求められる場面でも、情報漏洩のリスクを抑えながらAIの機能を活用できる。
実用的なモデルの実行には相応のハードウェア性能が必要で、とりわけGPUの演算能力とメモリ容量が動作の快適さを左右する。モデルのパラメータ数が多いほど精度は上がるが、要求されるメモリ量も増大し、一般的な家庭用パソコンでは動作できるモデルが限られる場合もある。この制約を緩和するのが「量子化」と呼ばれる軽量化技術で、精度をある程度保ちながらモデルのサイズを圧縮することで、普及帯のマシンでも実用的な速度での動作が可能になっている。
利用者がゼロからモデルを開発・構築することもあるが、多くの場合、有力な開発者が公開している学習済みモデルである「オープンウェイトモデル」を導入して利用する。米メタ(Meta Platforms)社の「Llama」シリーズや、米グーグル(Google)社の「Gemma」、中国・杭州深度求索の「DeepSeek」などが広く使われており、「Ollama」や「LM Studio」といったソフトウェアを通じて比較的簡単にセットアップできる環境が整っている。これらのモデルは特定の業務用語や社内ルールに合わせた追加学習も行いやすく、用途に特化したAIを構築する基盤としても活用されている。