データリーケージ【data leakage】

概要

データリーケージとは、機械学習モデルの訓練時に、学習データに本来は利用すべきではないデータが混入してしまうこと。テスト時に性能を過大評価してしまい、本番環境での性能が見込みより大幅に低下する事態につながる。

機械学習モデルを訓練するには学習データの入力を与えて予測させ、正解との誤差を計測してそれを正すようにパラメータを補正していく。この学習データとして本来利用すべきでないデータが意図せず混入してしまうことで、未知データに対する予測性能が劣化してしまうことがある。

例えば、用意したデータを学習用と検証用に分ける際、検証用のサンプルが意図せず学習用に混じってしまう場合がある。これを「トレインテスト汚染」（train-test contamiation）と呼ぶ。検証用のサンプルの情報を取り込んで学習したモデルは、検証時に「正解を知っている」状態でテストを受ける状況となり、（カンニングできない）本番環境の真の未知データに対しては正しい予測ができなくなってしまう。

また、データに時系列や因果関係がある場合、予測を行う時点では利用できないはずの特徴量を与えて学習させてしまう場合がある。これを「ターゲットリーケージ」（target leakage）と呼び、未来や結果の情報から過去や原因を予測するといった錯誤が生じる。

例えば、顧客がローンを滞納するかどうかを予測するモデルを構築する際、「滞納後に発行された督促状の記録」を特徴量として含めてしまうと、モデルは「督促状がある」という情報に強く依存してしまい、実環境で必要な他の特徴からの予測能力が損なわれる。督促状は滞納という事象の後に発生する情報であるため、予測には使えない。

(2025.12.11更新)