外れ値 【outlier】

概要

外れ値(outlier)とは、調査や測定、観測などで同種のデータをいくつも取得したとき、全体のデータの傾向から大きく外れたのこと。

収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れたのことを外れ値という。このうち、測定機器の不具合や記入ミスなど、何らかの誤りによっておかしなになってしまったものは「異常値」という。対象や方法によって、異常値と異常値以外の外れ値を区別できる場合とできない場合がある。

外れ値を含んだデータをそのまま分析すると、平均値相関係数などの統計量に大きな影響を与え、歪んだ結果が導き出されることがある。このため、一定の基準を設けて外れ値を取り除く操作をうことがある。

よく用いられる手法として、箱ひげ図を描いて「第1四分位数-箱の幅×1.5以下」「第3四分位数+箱の幅×1.5以上」のデータを外れ値と判定する方法がある。また、平均値標準偏差などから特定の統計量を算出し、基準値を設けて判定する方法もある。こうした検定にはスミルノフ・グラブス検定やトンプソン検定などが知られている。

なお、用意した結論に都合のよいデータのみを残してそれ以外を外れ値として排除することはデータ改竄とみなされる可能性があるための削除は慎重にう必要がある。どんな調査や観測でも、現実の対象を調べれば全体の傾向から外れたサンプルが存在するのは普通のことであるため、異常値として理由が説明できる値以外は恣意的に取り除くべきではないとする考え方もある。

(2024.5.27更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる