グラウンドトゥルース【ground truth】
グラウンドトゥルースとは?

もともと地理的な調査の分野で、人工衛星や航空写真から得た情報が現実と一致しているかを確かめるため、実際に現地で測定した結果を「グラウンドトゥルース」と呼んでいた。この「現実を直接確認した正解」という概念が、機械学習における正解データの意味へと受け継がれた。
機械学習では、モデルが予測や分類を正しく学ぶために、あらかじめ答えが定められたデータが必要である。画像認識であれば「この画像は猫」「この画像は犬」と人間がラベルを付けたデータがグラウンドトゥルースとなる。音声認識では人間が文字化した内容、自動運転では道路標識や歩行者の位置情報がそれに当たる。モデルはこの正解と自らの予測を照合しながら誤差を修正し、精度を高めていく。
グラウンドトゥルースは学習だけでなく評価にも使われる。完成したモデルが新しいデータに対してどれだけ正確に予測できるかを測る際、あらかじめ用意した正解データと出力を比較することで、正解率や適合率などの精度指標が算出される。正解の基準がなければ、システムの優劣を数値で判断することはできない。
グラウンドトゥルースは必ずしも絶対的な真実とは限らない。人間が手作業でラベルを付ける以上、判断のばらつきや誤りが生じる余地がある。医療画像診断では複数の専門医の見解が割れることもあり、その場合は合議や確定診断の結果をもって正解とする。グラウンドトゥルースとはあくまでAIに正しい知識として学ばせる「現時点で最も信頼できる正解」という位置付けである。