読み方 : げんごモデル
言語モデル【language model】
概要

人類がこれまでに書き記した膨大な文章を学習させ、言葉の並び方のパターンや文脈による語彙や表現の変化を把握させる。例えば、「空が」という入力に対し、次に「青い」が続くのはもっともらしいが、「強い」はおかしい、といった判断ができるようにする。
初期の言語モデルは単純な出現頻度や共起確率(二つの単語が共に現れる頻度)に基づく統計的なモデルだったが、近年ではニューラルネットワークを用いたディープラーニング技術の導入により、複雑な文脈や長い文章の整合性を維持する能力が飛躍的に向上した。
特に、現在のAIブームの火付け役となった「大規模言語モデル」(LLM)は、「注意機構」(アテンション)と「Transformer」構造という新たな技術の導入により、単なる次の単語の予測を超え、高度な推論や翻訳、要約、プログラムコードの生成まで可能になっている。モデルの規模を示すパラメータ数が数千億以上に達するものもあり、人間と見紛うような自然な言語能力を獲得している。
一方、言語モデルは統計的な予測を行っているに過ぎないため、事実に基づかない情報を自信満々に生成する「ハルシネーション」(hallucination:幻覚)という現象が課題となっている。また、学習データに含まれる偏見をそのまま反映してしまったり、非合法な情報を利用者に求められるままに生成してしまうといったリスクも指摘されている。構造が複雑で規模が巨大なため詳細な動作原理は不明な点もあり、能力に見合った適切な制御と管理を行うための手法やルールは今後の大きな課題となっている。