グラウンドトゥルース【ground truth】

グラウンドトゥルースとは?

AI機械学習において、モデルの学習・評価に用いる「正解」データのこと。測量やリモートセンシングの分野で「現地で直接確認した正確な値」を意味していた言葉が、情報技術の領域に転用された。
グラウンドトゥルースのイメージ画像

もともと地理的な調査の分野で、人工衛星や航空写真から得た情報が現実と一致しているかを確かめるため、実際に現地で測定した結果を「グラウンドトゥルース」と呼んでいた。この「現実を直接確認した正解」という概念が、機械学習における正解データの意味へと受け継がれた。

機械学習では、モデルが予測や分類を正しく学ぶために、あらかじめ答えが定められたデータが必要である。画像認識であれば「この画像は猫」「この画像は犬」と人間がラベルを付けたデータがグラウンドトゥルースとなる。音声認識では人間が文字化した内容、自動運転では道路標識や歩行者の位置情報がそれに当たる。モデルはこの正解と自らの予測を照合しながら誤差を修正し、精度を高めていく。

グラウンドトゥルースは学習だけでなく評価にも使われる。完成したモデルが新しいデータに対してどれだけ正確に予測できるかを測る際、あらかじめ用意した正解データと出力を比較することで、正解率適合率などの精度指標が算出される。正解の基準がなければ、システムの優劣を数値で判断することはできない。

グラウンドトゥルースは必ずしも絶対的な真実とは限らない。人間が手作業でラベルを付ける以上、判断のばらつきや誤りが生じる余地がある。医療画像診断では複数の専門医の見解が割れることもあり、その場合は合議や確定診断の結果をもって正解とする。グラウンドトゥルースとはあくまでAIに正しい知識として学ばせる「現時点で最も信頼できる正解」という位置付けである。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。