読み方 : マハラノビスきょり
マハラノビス距離【Mahalanobis' distance】
概要

空間内の直線距離に相当するユークリッド距離は、各特徴量のスケールが異なったり、特徴量間に強い相関があったりする場合、適切にデータ間の隔たりを評価できないという問題がある。例えば、身長と体重のデータがあるとき、身長が平均+10cmで体重が+10kgの人と、身長が平均+10cmだが体重は-10kgの人がいるとき、単純な平均からの距離はそれほど変わらないが、後者の方が集団の傾向から鑑みてより「珍しい」データ点だと解釈されるべきである。
マハラノビス距離は、この「珍しさ」を測るために、データ群から求めた共分散行列(特徴量間の分散や相関を示す行列)を用いて距離を補正する。共分散行列の逆行列を重みとして距離を計算することで、ばらつきの小さい方向への隔たりを大きく評価し、相関によって引き伸ばされている方向の影響を小さくする。これにより、距離が等しくなる点の集合(等距離線)は、ユークリッド距離では円形になるのに対し、マハラノビス距離ではデータの分布に応じて歪んだ楕円形になる。
この距離は、データ群が多次元正規分布に従うと仮定した場合、集団からの逸脱度合いを示す指標として利用され、異常値検出や多変量データのパターン認識などで有効な手法である。クラスタリングや判別分析においても、変数間の相関を踏まえた類似度の指標として利用され、特に特徴量のスケールや相関が複雑なデータに適している。
(2025.12.12更新)