読み方 : ぶんしょうせいせい

文章生成【text generation】テキスト生成

概要

文章生成とは、コンピュータ自然言語処理技術を用いて、人間が書いたような自然な文章を自動的に作成する技術。与えられた入力や文脈に基づいて意味の通じる文章を構成する技術で、機械翻訳自動要約、対話システム(チャット)などに応用されている。
文章生成のイメージ画像

初期の手法では、文法や構文規則などを定義して適用するルールベース手法や、既存の文例データベースから確率的に単語を予測する手法が用いられてきた。これらはモデルの構造が単純で解釈しやすい一方、長い文脈を扱うことが難しく、生成される文章の一貫性や多様性に限界があった。

近年ではニューラルネットワークを応用した機械学習が主流となり、リカレントニューラルネットワークRNN)やLSTM(長・短期記憶)の導入により、文脈情報を時系列として保持しながら文章を生成することが可能となった。さらに、アテンションAttention注意機構)およびTransformer構造を用いた手法が飛躍的な発展を遂げ、長文においても前後の整合性を保ちながら自然な文章を生成できるようになっている。

機械学習ベースの文章生成プロセスでは、入力されたテキストを意味や文脈を反映した数値のベクトルに変換し、モデル内部で複雑な計算を行うことで出力候補となる単語の確率分布を算出する。生成の際には、単に最も確率の高い単語を選び続けるだけでなく、ランダム性を適度に取り入れることで、多様で創造的な表現を実現する手法も用いられている。

文章生成技術は、チャットAIや翻訳ツール、顧客対応など、既に社会の様々な場面で実用化されている。しかし、事実とは異なる「作り話」を生成してしまうハルシネーションhallucination:幻覚)と呼ばれる現象や、学習データに含まれる偏見を反映した文章の生成、学習時に取り込んだ著作物や機密性の高いデータを暴露してしまうといった課題も存在しており、出力の制御や安全性の確保に向けた研究が継続されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。