読み方 : ふへんぶんさん

不偏分散【unbiased variance】

不偏分散とは?

統計学において、標本データから母集団全体のばらつきを推定するために用いられる計算値。通常の分散をそのまま使うと母集団の真のばらつきを過小評価する傾向があるため、その偏りを補正したものである。
不偏分散のイメージ画像

「分散」(distribution)とは、各データ平均値からどれだけ離れているかを数値化した指標である。具体的には、各データ平均値の差を二乗してすべて合計し、データの個数で割って求める。値が大きいほどデータが広く散らばっていることを意味する。

実際の調査では、対象すべてからデータを集めることが現実的に難しい場合が多く、一部を抽出した標本を使って全体を推測することになる。このとき、標本から単純に計算した分散は母集団の分散より体系的に小さくなることが数学的に証明されている。

この過小評価が生じる理由は、標本平均の算出方法にある。標本平均は標本内のデータに基づいて計算されるため、各データ平均値の距離が実際より近く見積もられてしまう。さらに、標本平均が決まった時点で最後の1個のデータの値は自動的に定まり、独立して変動できるデータ数は実質的にn−1となる。この考え方を「自由度」と呼ぶ。

不偏分散では、差の二乗の合計をnではなくn−1で割ることでこの偏りを補正する。この操作により、算出値の期待値母集団の真の分散と一致する。「不偏」とは推定値に統計的な偏りがないことを指す統計学の用語であり、この性質を持つことから不偏分散と名付けられている。

アンケート調査や品質管理、医学研究など、標本から全体を推定する場面では不偏分散が標準的に使われる。一方、母集団全体のデータが揃っている場合は通常の分散で足りる。表計算ソフトでは、Excelの「VAR.S関数」が不偏分散、「VAR.P関数」が母集団の分散に対応しており、目的に応じて使い分ける。データ数が十分に大きい場合は両者の差はほぼ無視できるが、少数のデータを扱う場面ではこの補正が分析の精度に影響を与える。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。