読み方 : とうけいてきバイアス

統計的バイアス【statistical bias】

統計的バイアスとは?

統計的な分析を行う際、データの収集や分析、解釈の過程で結果が真の実態から系統的にずれる現象。偶然によるばらつきとは異なり、同じ条件で繰り返しても一定の方向へ偏りが生じる。サンプル数を増やしても偏りそのものは解消されない。
統計的バイアスのイメージ画像

いくつかの種類があり、最も基本的な類型は「標本バイアス」である。母集団全体を調査できない場合、一部を抽出して推定を行うが、その標本が母集団を正確に反映していなければ結果は現実とかけ離れる。例えば、インターネット上のアンケートは、スマートフォンやパソコンを日常的に使わない層を自動的に除外するため、特定の属性に偏った回答が集まりやすい。

選択バイアス」は、調査対象の選び方に偏りがある場合に生じる。「生存者バイアス」はその典型で、結果として残ったものだけを観察することで失敗や消滅したケースが見落とされる。ある市場で長期間存続している企業だけを分析すると、すでに廃業・事業撤退した企業の情報が除外され、実態を誤って把握することになる。

「測定バイアス」は、データの収集や記録の段階で生じる系統的な誤差である。調査票の質問の順序や表現が回答に影響する場合や、測定機器の校正が不十分な場合が該当する。「確認バイアス」は、分析者の意図や思い込みが分析の設計や解釈に影響する場合に生じる。仮説を支持するデータを優先し、反証となるデータを軽視すると、結果は事前の期待に沿う方向へ歪む。統計的手法それ自体が客観的であっても、変数の選び方や集計の切り口次第で特定の結論を導きやすい分析になりうる。

機械学習の分野では、訓練データに含まれるバイアスがモデルの予測結果に反映される問題が広く知られている。過去の採用実績データで学習したモデルが、特定の属性を持つ応募者を不当に低評価するといった事例がその一つである。データが現実を映すとしても、その現実自体が歴史的な偏りを含んでいれば、モデルはその偏りを学習してしまう。このため、データセットの構成や前処理の段階で偏りを確認・補正する作業が求められる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。