読み方 : データかくちょう

データ拡張【data augmentation】

概要

データ拡張とは、機械学習において、手元にある学習データに加工を施すことで、データの意味を保ったまま量や多様性を増やす手法。モデルの汎用性を高め、過学習を抑制する効果がある。
データ拡張のイメージ画像

機械学習モデルは、学習に用いるデータの分布を通じて規則性を獲得するが、データ量が不足すると特定の事例に過度に適合(過学習)してしまい、新しい入力に対する予測精度(汎化性能)が低下することがある。

データ拡張は、収集済みのデータに一定の規則に基づいて機械的な加工を施すことで擬似的に新しいサンプルを生成し、学習データの数を増やす。モデルが多様な入力に触れる機会を増やし、学習の偏りを緩和することができる。

画像認識では、回転(Rotation)や反転(Flip)、切り抜き(Cropping)、拡大・縮小、輝度(Brightness)やコントラスト(Contrast)の変更などが一般的に用いられる。音声分野では、雑音の付加(Noising)や再生速度の変化が利用される。自然言語処理では、文章中の一部の単語を同義語に置き換えたり(Paraphrasing)、語順を入れ替えたりする手法が用いられる。

これらの操作によって生成されたデータは、元のデータとは細部が異なるものの、本質的な意味・内容は維持されている。モデルは同じ対象についての多様なパターンを学習することで、ノイズや状況の違いに影響されずに安定して識別や予測を行う頑健性を獲得することができる。特に、学習データの量が少ない状況で精度を高める手法として有効である。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。