読み方 : ミックスアップ
Mixup
概要

データ拡張は機械学習に用いる学習データに加工を施して新しい学習データを生成する手法である。データの意味を保ったまま量や多様性を増やし、過学習を抑えて未知データに対する精度(汎化性能)を向上させる効果がある。
Mixupでは、二つの学習データのサンプルと正解ラベルのそれぞれを特定の同じ割合で線形に重ね合わせて合成する。例えば、画像認識タスクであれば、犬の画像を70%、猫の画像を30%の割合で半透明化して重ね合わせた合成画像を作成し、これを「犬が0.7、猫が0.3」という正解ラベルを与えて学習させる。
現実には存在しない不自然なデータを学習することになるが、クラス間を滑らかにつなぐ中間的なデータが生成され、モデルの決定境界を滑らかにする効果がある。通常の学習では未知データが境界付近にある場合、わずかなノイズで予測が大きく変動しがちだが、Mixupによる学習で境界付近での振る舞いが安定し、ノイズに対して頑健になる。モデルの過度な自信を抑制し、予測の安定性を高める効果も期待できる。