読み方 : ふへんぶんさん
不偏分散【unbiased variance】
不偏分散とは?

「分散」(distribution)とは、各データが平均値からどれだけ離れているかを数値化した指標である。具体的には、各データと平均値の差を二乗してすべて合計し、データの個数で割って求める。値が大きいほどデータが広く散らばっていることを意味する。
実際の調査では、対象すべてからデータを集めることが現実的に難しい場合が多く、一部を抽出した標本を使って全体を推測することになる。このとき、標本から単純に計算した分散は母集団の分散より体系的に小さくなることが数学的に証明されている。
この過小評価が生じる理由は、標本平均の算出方法にある。標本平均は標本内のデータに基づいて計算されるため、各データと平均値の距離が実際より近く見積もられてしまう。さらに、標本平均が決まった時点で最後の1個のデータの値は自動的に定まり、独立して変動できるデータ数は実質的にn−1となる。この考え方を「自由度」と呼ぶ。
不偏分散では、差の二乗の合計をnではなくn−1で割ることでこの偏りを補正する。この操作により、算出値の期待値が母集団の真の分散と一致する。「不偏」とは推定値に統計的な偏りがないことを指す統計学の用語であり、この性質を持つことから不偏分散と名付けられている。
アンケート調査や品質管理、医学研究など、標本から全体を推定する場面では不偏分散が標準的に使われる。一方、母集団全体のデータが揃っている場合は通常の分散で足りる。表計算ソフトでは、Excelの「VAR.S関数」が不偏分散、「VAR.P関数」が母集団の分散に対応しており、目的に応じて使い分ける。データ数が十分に大きい場合は両者の差はほぼ無視できるが、少数のデータを扱う場面ではこの補正が分析の精度に影響を与える。