サンプリングバイアス【sampling bias】

概要

サンプリングバイアスとは、データを収集する際に母集団を正しく代表しない標本が選ばれることで、分析結果に偏りが生じる現象。統計解析や機械学習の分野では、モデルが行う予測の前提を損なう要因の一つとして知られる。

世論調査やマーケティング調査などで古くから知られている現象で、調査対象の選定方法などに問題があり、調査対象となる母集団の本来の傾向を反映しない偏ったサンプル群からデータを集めてしまうことを指す。

例えば、世論調査で平日の昼に固定電話の番号のみを対象にランダムに電話をかけて回答を求める調査を行うと、会社員など平日の昼に家にいない層が丸ごと欠落したサンプルから結果を予測することになってしまう。

このような偏りには、よくあるパターンがいくつか知られている。例えば、ネットでオープンに回答を募る調査などで、調査内容について特定の意見や嗜好を持つ人ばかりが積極的に回答したがる「任意回答バイアス」、現存する企業だけを調査することで倒産して残っていない企業の事例が除外されてしまう「生存者バイアス」などである。

機械学習の分野では、モデルの品質は学習データの質に大きく左右される。学習データにサンプリングバイアスが生じている場合、モデルは偏った特徴を学習して再現するようになってしまい、本来対象となる未知のデータに対する予測や判断の精度（汎化性能）が低下してしまう。システムが学習した偏りによって偏見や差別が再生産されてしまう現象を「アルゴリズムバイアス」と呼ぶ。

サンプリングバイアスを抑えるためには、母集団の構造を把握した上で、無作為抽出や層化抽出などの手法を用いて抽出時に偏りが生じないようにしたり、任意回答バイアスのような問題が生じないような回答方法を工夫する必要がある。収集後のデータに対して重み付けや補正を行うことで、偏りの影響を緩和する方法が用いられることもある。

(2025.12.15更新)