読み方 : げんごモデル

言語モデル【language model】

概要

言語モデルとは、人間が使う言葉をコンピュータが処理・生成できるように、言葉の出現確率を統計的または数学的にモデル化したもの。基本原理は、ある単語の次にどの単語が続くのが最も自然かを予測する仕組みである。
言語モデルのイメージ画像

人類がこれまでに書き記した膨大な文章を学習させ、言葉の並び方のパターンや文脈による語彙や表現の変化を把握させる。例えば、「空が」という入力に対し、次に「青い」が続くのはもっともらしいが、「強い」はおかしい、といった判断ができるようにする。

初期の言語モデルは単純な出現頻度や共起確率(二つの単語が共に現れる頻度)に基づく統計的なモデルだったが、近年ではニューラルネットワークを用いたディープラーニング技術の導入により、複雑な文脈や長い文章の整合性を維持する能力が飛躍的に向上した。

特に、現在のAIブームの火付け役となった「大規模言語モデル」(LLM)は、「注意機構」(アテンション)と「Transformer」構造という新たな技術の導入により、単なる次の単語の予測を超え、高度な推論や翻訳、要約、プログラムコードの生成まで可能になっている。モデルの規模を示すパラメータ数が数千億以上に達するものもあり、人間と見紛うような自然な言語能力を獲得している。

一方、言語モデルは統計的な予測を行っているに過ぎないため、事実に基づかない情報を自信満々に生成する「ハルシネーション」(hallucination幻覚)という現象が課題となっている。また、学習データに含まれる偏見をそのまま反映してしまったり、非合法な情報を利用者に求められるままに生成してしまうといったリスクも指摘されている。構造が複雑で規模が巨大なため詳細な動作原理は不明な点もあり、能力に見合った適切な制御と管理を行うための手法やルールは今後の大きな課題となっている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。