読み方 : さんぷど

散布度【dispersion】

散布度とは?

データの集合において値がどれほど広い範囲に散らばっているかを表す統計的な指標の総称。平均値などの代表値データの中心を示すのに対し、散布度はばらつきの大きさを定量的に表す。
散布度のイメージ画像

散布度を表す代表的な指標として、「範囲」「四分位範囲」「分散」「標準偏差」がある。「範囲」(range)は最大値と最小値の差であり、最も単純に全体の広がりを把握できるが、外れ値の影響を受けやすい。「四分位範囲」(IQRInterquartile Range)はデータを大きさ順に並べた中央50%の幅を示し、外れ値の影響を受けにくい。

「分散」(variance)は各データ平均値との差を二乗した値の平均であり、データ全体のばらつきを総合的に示す。「標準偏差」(SD:Standard Deviation)は分散の平方根で、元のデータと同じ尺度でばらつきを表せるため、実務や研究で広く用いられる。

散布度は代表値と組み合わせて用いられることが多い。例えば、二つのクラスの試験の平均点が同じ70点であっても、一方の標準偏差が5点、もう一方が20点であれば、成績の分布状況はまったく異なる。代表値だけでは見えないデータの構造を明らかにすることができる。

製造業では品質の安定性確認、金融分野では価格変動の分析など、様々な分野で基本的な指標として参照される。情報処理の分野では、異常値の検出やデータ正規化機械学習モデルにおける予測精度の評価にも散布度の概念が活用される。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。