読み方 : パラフレージング

Paraphrasing

概要

Paraphrasingとは、機械学習におけるデータ拡張手法の一つで、自然言語データに対して、元の文章の意味を保ったまま一部の別の言葉や表現に置き換えた文章を作成し、新しい学習データとするもの。限られたテキストデータから多様な表現パターンを作り出し、モデルの汎用性を高めることができる。
Paraphrasingのイメージ画像

データ拡張機械学習に用いる学習データに加工を施して新しい学習データを生成する手法である。データの意味を保ったまま量や多様性を増やし、過学習を抑えて未知データに対する精度(汎化性能)を向上させる効果がある。

Paraphrasingは自然言語の文章を対象とする拡張手法で、元の文章に対して単語や熟語の同義語への置き換え、語順の変更、能動態と受動態の変換など、機械的な処理で実行可能な「言い換え」(paraphrase)を行い、意味的に等価な新しいサンプルを作成する。近年では、このようなルールベース手法に加え、機械翻訳で別の言語に翻訳し再翻訳する方法や、大規模言語モデルLLM)による生成的言い換えも利用されている。

様々な言い換え表現をモデルに学習させることで、モデルは特定の語句や定型表現への過度な依存を避け、意味内容に基づく表現を学習しやすくなる。一方、言い換えの過程で意味が微妙に変化したり、ラベルと整合しない文が生成される可能性もあるため、変換手法の検討や品質の管理が重要となる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。