クラスター分析 【cluster analysis】 データクラスタリング / data clustering / クラスタ解析
概要
クラスター分析(cluster analysis)とは、データ解析手法の一つで、多数のデータ群を似た特徴を持つ集団に分類する手法。あらかじめ基準を与えずに分類させる「教師なし分類法」の一種である。分類の仕方により、分類した集団の内部をさらに小さな集団に段階的に分類していく階層的手法と、全体をいくつかの集団に分類する非階層的手法がある。
対象間には何らかの基準に基づいて距離を定義する。距離が近い対象同士は似ているとみなして同じ集団に分類する。空間内の単純な直線距離であるユークリッド距離を用いることが多いが、他にも市街地距離(マンハッタン距離)やマハラノビス距離、コサイン類似度など様々な尺度が提唱されている。
具体的な分類アルゴリズムにもいくつかの種類があり、階層的手法としては最短距離法や最長距離法、ウォード法、群平均法などが、非階層的手法としてはk平均法(k-means法)がよく知られている。
(2019.7.4更新)