読み方 : むさくいちゅうしゅつ
無作為抽出【random sampling】ランダムサンプリング

母集団全体を調査することが現実的でない場合、一部を取り出して分析し、全体の傾向を推定する「標本調査」が行われる。このとき、抽出された標本が母集団の特性を正しく反映していなければ、分析結果に偏りが生じる。無作為抽出はこの偏りを排除するための基本的な手法で、調査者の意図や先入観が標本の選択に影響しないよう、選択の過程を確率的な仕組みに委ねる。
標本をランダムに選択するため、乱数表やコンピュータの乱数生成機能を用いて対象を機械的に選ぶ方法がよく用いられる。表計算ソフトや統計ソフトには乱数生成機能が備わっており、母集団の各要素に番号を割り当てて抽出を行う。紙のくじも原理は同じである。
標本を抽出する手順はいくつかあり、基本形は母集団全体から直接選ぶ「単純無作為抽出」である。他に、母集団を年齢・地域などの層に分けて各層から無作為に選ぶ「層化抽出」、一定間隔で機械的に選ぶ「系統抽出」、地域や集団を段階的に絞り込んでいく「多段抽出」などの派生手法がある。大規模調査では作業効率の観点から多段抽出が採用されることが多い。
無作為抽出が有効に機能するには、母集団のすべての要素があらかじめ列挙されているか、少なくとも特定可能な状態にあることが前提となる。全数調査が時間・費用の面で困難な場合のほか、製品の破壊検査のように全数を調べることが原理的に不可能な状況でも用いられる。情報システム分野では、大量のログやアクセス履歴の一部を抽出して解析することで処理負荷を軽減する用途にも応用される。