ニューラル言語モデル【neural language model】
ニューラル言語モデルとは?

ニューラルネットワーク以前の言語モデルは、設計者が言語の語彙や文法を定義したデータを与えたり、直前の数個の単語の出現頻度を統計的に集計して確率を計算するといった手法が主流だった。これらは長い文脈の把握や多義的な語彙や表現への対応には限界があった。ニューラルネットワークの導入により、文例データを大量に与えるだけで言語の語彙や規則性を自動的に獲得できるようになった。
ニューラル言語モデルでは、単語や文字を「ベクトル」と呼ばれる多次元の数値列に変換して処理する。意味や用法が似た語は近いベクトルとして表現されるため、単純な一致では捉えられない語の関係も学習できる。例えば、「犬」と「猫」は異なる語だが、「動物」「ペット」などの文脈では一定の類似性、共通性を持っている。こうした関連性をモデル内部で表現できる。
モデルの構造は時代とともに変化してきた。初期は単純なフィードフォワード型ネットワークが用いられ、その後、系列データの処理に適した「リカレントニューラルネットワーク」(RNN)や「LSTM」(長・短期記憶)が考案された。2017年に提案された「Transformer」が普及すると状況は大きく変わった。このモデルは文中の語同士の関係を並列に計算する仕組みを持ち、長い文脈でも重要な箇所を適切に参照できる。これにより、翻訳や要約、質問応答など様々なタスクでの精度が大幅に向上し、自然言語処理の主流となった。
近年普及している「大規模言語モデル」(LLM)もニューラル言語モデルの一種であり、パラメータ数が数千億規模に達するものも登場している。膨大な文字データで学習されたモデルは、文章生成の能力を応用して対話や要約、プログラムコード生成などを行う。一方、学習データの量や品質、モデルの構造、学習方法によって性能が大きく左右され、文法的に自然な文章を生成できても内容の正確性が常に保証されるわけではない。流暢に作り話をする「ハルシネーション」(hallucination:幻覚)などの課題もある。