読み方 : しぶんいはんい

四分位範囲【IQR】Interquartile Range

四分位範囲とは?

データのばらつきを測る統計指標の一つで、全データを小さい順に並べたとき、中央の50%がどの程度の幅に収まっているかを示す値のこと。
四分位範囲のイメージ画像

データ昇順(小さい順)に並べ、全体を四等分する境界の値を「四分位数」という。小さい方から25%の位置にある値を「第1四分位数」(Q1)、50%の位置を「第2四分位数」(Q2、中央値と同じ)、75%の位置を「第3四分位数」(Q3)と呼ぶ。四分位範囲はQ3からQ1を引いた値である。例えば、テストの点数についてQ1が60点、Q3が80点であれば、四分位範囲は20点となり、中央付近の半数のデータがその20点の幅に収まっていることを意味する。

四分位範囲の利点は、外れ値の影響を受けにくいことにある。平均値標準偏差は、少数の極端な値が混入するだけで大きく変動する。一方、四分位範囲は上下それぞれ25%を除いた中央部分だけを対象とするため、外れ値があっても安定した結果が得られやすい。年収や医療データのように極端な値が生じやすい分野では、平均値より実態を反映した指標となる。

また、四分位範囲は外れ値を定義する基準にも使われる。Q3に四分位範囲の1.5倍を加えた値、またはQ1から同量を引いた値を境界線とし、それを超える数値を外れ値とみなす手法が広く用いられている。この方法により、外れ値の判定を主観に頼らず機械的に行うことができる。

四分位範囲は箱ひげ図と組み合わせて視覚的に表示されることが多い。箱ひげ図ではQ1からQ3の範囲を箱として描き、箱の長さが四分位範囲に対応する。箱が短ければデータが中央に密集し、長ければばらつきが大きいと読み取れる。また、四分位範囲を半分にした値は「四分位偏差」(quartile deviation)と呼ばれ、中心からの平均的な散らばりを示す指標として併用される。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。