読み方 : ノイジング
Noising
概要

データ拡張は機械学習に用いる学習データに加工を施して新しい学習データを生成する手法である。データの意味を保ったまま量や多様性を増やし、過学習を抑えて未知データに対する精度(汎化性能)を向上させる効果がある。
Noisingでは、学習データにランダムにノイズを付け加えたものを元の正解ラベルを用いて学習させる。例えば、画像であれば各画素に対してガウス分布に従う乱数であるガウスノイズを加えたものを学習させる。この手法は画像だけでなく、音声や文字データ、数値データなど様々なデータに対して汎用的に適用できる。
ノイズを加えたデータを学習することで入力の微小な揺らぎに対して頑健な表現を獲得し、モデルの汎化性能を高めることができる。特に、学習データ量が少ない場合、モデルはデータの細かな変動を重要な情報だと誤認して学習してしまう場合があるが、ノイズを導入することでこうした細部への依存を減らし、対象の普遍的な特徴を学ぶことができる。