読み方 : こうさけんしょう

交差検証【cross validation】クロスバリデーション

概要

交差検証とは、統計解析で、標本データ群を複数のセットに分割し、一部のセットで解析を、他のセットで検証を行う手法。機械学習の場合は、学習データの一部で訓練を、残りでテストを行うことを指す。
交差検証のイメージ画像

標本データを集めて統計的な解析や予測を行う場合、得られた統計モデルが実際のデータにどの程度当てはまるかを検証する必要がある。検証には標本データとは別のデータが必要となるが、標本データを分割して一部を検証用に取っておく手法を交差検証という。

交差検証は、標本データとは別に検証用のデータを改めて集めるのが困難あるいは不可能な場合に活用される。統計解析だけでなく、機械学習モデルの予測性能の検証にも、学習データを訓練用とテスト用に分割する交差検証が利用されている。分割の仕方によって様々な手法が提唱されている。

主な手法

データを2つに分割し、片方を解析や学習用に、もう片方をテスト用に回す手法を「ホールドアウト検証」という。最も単純で分かりやすい手法で、データ量が豊富な場合にはこれで問題ないが、データが少ない場合はノイズや偏りの影響が大きくなり、うまく機能しないことある。

k-分割交差検証」は、訓練データをk個(kは2以上の整数)に等分し、「あるセットをテスト用に回し、残りのk-1個のセットで解析や学習を行う」という操作をk回繰り返す。各回の結果を平均して全体の結果とする。すべてのデータが一度はテストに用いられ、少ないデータでも安定した結果が得られやすい。

(2025.11.15更新)