読み方 : さんぷど
散布度【dispersion】

散布度を表す代表的な指標として、「範囲」「四分位範囲」「分散」「標準偏差」がある。「範囲」(range)は最大値と最小値の差であり、最も単純に全体の広がりを把握できるが、外れ値の影響を受けやすい。「四分位範囲」(IQR:Interquartile Range)はデータを大きさ順に並べた中央50%の幅を示し、外れ値の影響を受けにくい。
「分散」(variance)は各データと平均値との差を二乗した値の平均であり、データ全体のばらつきを総合的に示す。「標準偏差」(SD:Standard Deviation)は分散の平方根で、元のデータと同じ尺度でばらつきを表せるため、実務や研究で広く用いられる。
散布度は代表値と組み合わせて用いられることが多い。例えば、二つのクラスの試験の平均点が同じ70点であっても、一方の標準偏差が5点、もう一方が20点であれば、成績の分布状況はまったく異なる。代表値だけでは見えないデータの構造を明らかにすることができる。
製造業では品質の安定性確認、金融分野では価格変動の分析など、様々な分野で基本的な指標として参照される。情報処理の分野では、異常値の検出やデータの正規化、機械学習モデルにおける予測精度の評価にも散布度の概念が活用される。