選択バイアス【selection bias】
選択バイアスとは?

典型的な例として、Webサービスの満足度アンケートがある。自発的に回答するのは熱心な支持者か強い不満を持つ利用者に偏りやすく、大多数を占める「特に感想のない層」の声は集まりにくい。この結果を「利用者全体の評価」として扱えば、実態とはかけ離れた結論になる。オンライン調査ではインターネットを使う層しか回答できない、街頭インタビューでは特定の時間帯・場所にいる人しか対象にならないなど、調査手法そのものに起因する構造的な偏りも生じやすい。
歴史的な事例として知られるのが「生存者バイアス」である。第二次世界大戦中、帰還した飛行機の被弾箇所をもとに補強箇所を検討しようとした際、統計学者のエイブラハム・ウォールド(Abraham Wald)は「記録に残るのは帰還できた機体だけ」と指摘した。撃墜された機体のデータは存在せず、観察できる範囲に観測が限定されることで実態の一部しか見えていない。過去の成功事例だけを集めて共通点を探る分析も、同じ構造の偏りを抱えている。
機械学習やAI開発においても、選択バイアスは深刻な問題となる。学習データに偏りがあれば、モデルの判断も偏る。採用審査AIに男性データが多ければ女性候補者を不当に低評価し、医療診断AIに特定人種のデータが少なければ診断精度が低下するといった事例が報告されている。大量のデータを扱う場合でも、収集対象が偏っていれば分析結果の信頼性は保証されない。
選択バイアスが生じる背景には、時間・コストの制約や、データ収集設計の不備がある。母集団全体から完全な無作為抽出を実現することは現実には難しく、集めやすいデータや協力的な層だけを対象にすることで、無意識のうちに偏りが生じる。医療研究では無作為割り付けによってこの偏りを抑えることが標準的な手法とされており、社会調査でも年齢・地域・職業などが偏らないよう標本を設計する方法が取られている。