読み方 : ケーぶんかつこうさけんしょう

k-分割交差検証【k-fold cross validation】

概要

k-分割交差検証とは、統計解析の検証手法の一つで、標本データを複数のセットに分割し、一つで解析、他のセットで検証という操作をセットの数だけ繰り返す方式。機械学習モデルの性能の検証にも用いられる。
k-分割交差検証のイメージ画像

標本データを集めて統計的な解析や予測を行う場合、得られた統計モデルが実際のデータにどの程度当てはまるかを検証する必要がある。検証には標本データとは別のデータが必要となるが、標本データを分割して一部を検証用に用いる手法を「交差検証」(cross validation)という。

k-分割交差検証では、全体をk個(kは2以上の整数)のセットに等分割する。最初にセット1を除く残りのk-1個で解析を行い、セット1でテストする。次にセット2を除くk-1個で解析を行い、セット2でテストする。この操作をセットkまでk回繰り返し、毎回の結果を平均して全体の結果とする。kの値の決め方に定まった方法は無いが、5や10とすることが多いとされる。

k-分割交差検証は解析とテストのサイクルをk回繰り返すため処理に手間や時間がかかるが、すべてのデータが一度はテストに用いられ、少ないデータ量でもノイズや偏りの影響を受けにくく安定的な結果を得やすいとされる。機械学習モデルの場合は、学習データをk個に分割して、k-1個を訓練用、1つをテスト用に用いるk-分割交差検証が行われる。

(2025.11.15更新)