読み方 : ぶんしょうせいせい
文章生成【text generation】テキスト生成
概要

初期の手法では、文法や構文規則などを定義して適用するルールベース手法や、既存の文例データベースから確率的に単語を予測する手法が用いられてきた。これらはモデルの構造が単純で解釈しやすい一方、長い文脈を扱うことが難しく、生成される文章の一貫性や多様性に限界があった。
近年ではニューラルネットワークを応用した機械学習が主流となり、リカレントニューラルネットワーク(RNN)やLSTM(長・短期記憶)の導入により、文脈情報を時系列として保持しながら文章を生成することが可能となった。さらに、アテンション(Attention:注意機構)およびTransformer構造を用いた手法が飛躍的な発展を遂げ、長文においても前後の整合性を保ちながら自然な文章を生成できるようになっている。
機械学習ベースの文章生成プロセスでは、入力されたテキストを意味や文脈を反映した数値のベクトルに変換し、モデル内部で複雑な計算を行うことで出力候補となる単語の確率分布を算出する。生成の際には、単に最も確率の高い単語を選び続けるだけでなく、ランダム性を適度に取り入れることで、多様で創造的な表現を実現する手法も用いられている。
文章生成技術は、チャットAIや翻訳ツール、顧客対応など、既に社会の様々な場面で実用化されている。しかし、事実とは異なる「作り話」を生成してしまうハルシネーション(hallucination:幻覚)と呼ばれる現象や、学習データに含まれる偏見を反映した文章の生成、学習時に取り込んだ著作物や機密性の高いデータを暴露してしまうといった課題も存在しており、出力の制御や安全性の確保に向けた研究が継続されている。