主成分分析 【PCA】 Principal Component Analysis
概要
主成分分析(PCA)とは、統計学の多変量解析の手法の一つで、多数の説明変数の中からよく相関している組み合わせを見つけ出し、一つの合成変数に置き換えて変数の数を減らすこと。次元を圧縮してモデルを単純化することができる。例えば、様々な科目のテスト結果からデータモデルを作る場合、各科目の得点をそのまま説明変数とすると極めて多次元のモデルになり、分析が困難になる場合がある。このとき、数学の得点Smと物理の得点Spに強い相関があるとすると、係数PmとPpを適当に定めて Smp = PmSm + PpSp と一つの値で代表させてしまうことで、変数の数を減らすことができる。
Smpを第1主成分と呼び、PmとPpは分散を最大化するように算出される。続いて、Smpと直行する組み合わせの中から「国語と英語」のように別の主成分を見つけ出し、第2主成分とする。このプロセスを繰り返して変数の数を削減していく。一つの主成分が3変数以上の合成になることもあり、この例の「数学と物理の総合得点」のような明快な意味付けが難しい組み合わせになることもある。
主成分が含んでいる情報の大きさを「固有値」、その主成分でデータ全体のどのくらいの割合を説明できるかを「寄与率」という。第1主成分から第2、第3…と順に寄与率を累積していった値を「累積寄与率」と呼び、実用上は十分高い累積寄与率(例えば80%)に達したら残りの主成分は無視する。
(2023.10.3更新)