読み方 : パーミュテーションインポータンス
Permutation Importance
概要

まず、学習済みのモデルと検証用のデータを用意し、基準となる予測精度を記録する。次に、重要度を知りたい特徴量について、その列のデータ順序をバラバラに並べ替える。この操作により、その特徴量と目的変数の間の関係性が破壊される。この状態で再度予測を行い、精度が大きく低下したら、その特徴量は予測に不可欠な重要な情報を持っていたと判断できる。逆に、精度がほとんど変わらなければ、その特徴量は予測にあまり寄与していないことになる。
回帰、分類、ランキングなど幅広いタスクに適用可能であり、評価指標も平均二乗誤差や正解率、AUCなど用途に応じて選択できる。モデルの内部構造やアルゴリズムに依存しないため、線形モデル、決定木、ニューラルネットワークなど様々なモデルを共通の基準で比較することができる。モデルが「何を重視して予測しているか」を簡便かつ客観的に把握でき、データの理解や不要な特徴量の削除などに活用される。
なお、特徴量間に強い相関が存在する場合、片方の特徴量を入れ替えても他方が情報を補完するため、重要度が過小評価される場合がある。また、シャッフル操作のランダムさの度合いで結果がばらつくことがあり、安定した評価には複数回の試行と平均化が必要となる場合がある。予測を何度も繰り返して結果を計算するため、大規模データや高次元特徴空間では計算コストが増大するという実務上の制約もある。