読み方 : マハラノビスきょり

マハラノビス距離【Mahalanobis' distance】

概要

マハラノビス距離とは、多変量データにおける点同士の距離を測る指標の一つ。データ群のばらつき(分散)と、特徴量間の関係(相関)を考慮して、あるデータ点が集団の中心からどれだけ(集団全体の傾向に対して)珍しい位置にあるかを示す。
マハラノビス距離のイメージ画像

空間内の直線距離に相当するユークリッド距離は、各特徴量のスケールが異なったり、特徴量間に強い相関があったりする場合、適切にデータ間の隔たりを評価できないという問題がある。例えば、身長と体重のデータがあるとき、身長が平均+10cmで体重が+10kgの人と、身長が平均+10cmだが体重は-10kgの人がいるとき、単純な平均からの距離はそれほど変わらないが、後者の方が集団の傾向から鑑みてより「珍しい」データ点だと解釈されるべきである。

マハラノビス距離は、この「珍しさ」を測るために、データ群から求めた共分散行列(特徴量間の分散や相関を示す行列)を用いて距離を補正する。共分散行列の逆行列を重みとして距離を計算することで、ばらつきの小さい方向への隔たりを大きく評価し、相関によって引き伸ばされている方向の影響を小さくする。これにより、距離が等しくなる点の集合(等距離線)は、ユークリッド距離では円形になるのに対し、マハラノビス距離ではデータの分布に応じて歪んだ楕円形になる。

この距離は、データ群が多次元正規分布に従うと仮定した場合、集団からの逸脱度合いを示す指標として利用され、異常値検出や多変量データパターン認識などで有効な手法である。クラスタリングや判別分析においても、変数間の相関を踏まえた類似度の指標として利用され、特に特徴量のスケールや相関が複雑なデータに適している。

(2025.12.12更新)
この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。