読み方 : はんかせいのう

汎化性能【generalization performance】

概要

汎化性能とは、機械学習システムが、訓練データ以外の未知のデータに対してどのくらい正確に予測することができるかを表す性能。実際の使用場面における予測性能であり、実用性の高さに直結する。

機械学習システムは与えられた訓練データの傾向を学び、入力データに対して分類回帰など何らかの予測を行う。学習済みのモデルの性能を測る指標はいくつかあり、汎化性能は学習に使われていない未知のデータを与えたときにどの程度正解することができるかを表している。

単に学習不足で予測がうまくいかない場合にも汎化性能は低くなるが、訓練データに対して完璧な予測性能を示しても、汎化性能が低くなる場合がある。これは、訓練データが体現する一般的な傾向だけでなく、訓練データに固有の細かなノイズや偏りまでも完璧に学習してしまい、それ以外のデータに適合できなくなってしまっている状態である。これを「過学習」(overfitting)という。

汎化性能の評価法

汎化性能を確かめるには、学習に使っていないデータ群を用意して予測させる必要がある。訓練データとは別にテストデータを用意するのが大変な場合は、学習用に用意したデータ群の一部を検証用として取り分けてテストする「交差検証」というテクニックが用いられる。

このうち、「ホールドアウト検証」は、単純に訓練データの一部を学習に使わず、検証用データとして用いる。「k-分割交差検証」は、訓練データをk個に分割し、「k-1個で学習して残りの1個で検証する」という操作を繰り返して、各回の結果を平均して最終的な結果とする。訓練データから重複を許してランダムにデータを抽出し、複数の部分集合を作成する「ブートストラップサンプリング」(ブートストラップ法)が用いられることもある。

汎化性能の向上手法

モデルの汎化性能を高めるには学習不足を補うために訓練データを増強したり、過学習を抑制する必要がある。訓練データを増強する手法としては「データ拡張」(data augmentation)があり、画像を回転するなど元の訓練データに機械的な操作を行ってデータを増やす。

過学習を抑制する方法はモデルの種類や学習手法によって異なるが、複数のモデルを組み合わせて一つのモデルとする「アンサンブル学習」、モデルの複雑さを抑制する「正則化」(L1正則化、L2正則化など)、ニューラルネットワークの一部のノードをランダムに停止させる「ドロップアウト」などの手法がよく知られる。

(2025.11.15更新)
この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。