読み方 : さんぷずぎょうれつ

散布図行列【scatter plot matrix】pairs plot

散布図行列とは?

複数の変数を持つデータセットにおいて、すべての2変数の組み合わせに対する散布図を格子状に並べた図表のこと。統計解析やデータ分析の初期段階で広く用いられ、変数間の相関や分布の傾向を一覧できる。
散布図行列のイメージ画像

縦横に同じ変数を同じ順番で配置し、行と列の交点に対応する2変数の散布図を描く。例えば、4変数であれば4×4で16セルの表を用意し、各変数について自分以外との組み合わせを考え、合わせて6個の散布図を並べていく。

対角線上は同一変数同士の交点となるため、各変数のヒストグラムや密度曲線、あるいは変数名が表示されることが多い。対角線を挟んで対称の位置には軸を入れ替えた同じ組み合わせの散布図が並ぶため、三角の領域の片方を散布図、もう片方を相関係数行列とする配置方法もある。

各散布図では、点の並び方から変数間の関係を読み取る。右上がりの分布であれば正の相関、右下がりであれば負の相関が示唆される。点が無秩序に散らばっている場合は強い相関が見られないことが多い。また、全体から大きく外れた点の確認により、外れ値や異常値の発見にも利用される。

探索的データ分析において、全変数の組み合わせを個別に確認する手間なく、データ全体の構造を俯瞰できる。機械学習多変量解析の前処理として、不要な変数の絞り込みや多重共線性の確認にも活用される。RのPairs関数やPythonのseabornライブラリのpairplot関数など、主要な統計・データ分析ツールに標準で搭載されており、データセットを指定するだけで自動生成できる。

変数の数が増えるほど図の数は二乗に比例して増加し、10変数では45個の散布図が並ぶことになる。視認性が低下するため、実用上は変数をあらかじめ絞り込んだうえで使用されることが多い。データ件数が多い場合は点が重なって分布を読み取りにくくなるため、透明度の調整やサンプリングを併用することもある。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。