読み方 : グラッドキャム
Grad-CAM【Gradient-weighted Class Activation Mapping】
概要
Grad-CAMとは、畳み込みニューラルネットワーク(CNN)の出力に対する勾配情報を用いて、モデルが画像認識の際に注目した領域を可視化する手法。ネットワーク構造の制約が少なく、様々なモデルの説明可能性を向上させることができる。

出力された予測値から逆伝播によって得られる勾配情報を利用する。最終的な予測結果に対して各特徴マップがどの程度影響を与えたかを計算し、その重要度を重みとして特徴マップを合成する。モデルが「猫」と判断した場合には猫の領域が、「犬」と判断した場合には犬の領域が、それぞれ重要な箇所として明るく強調される。
元になった従来方式のCAM(Class Activation Mapping)では、ネットワークの終盤層を全結合層ではなくグローバル平均プーリング(GAP)層にしなければならないなど、構造設計上の制約があった。Grad-CAMは特定の構造を要請せず様々なモデルにそのまま適用でき、汎用性が高い。単純な画像分類のようなタスクだけでなく、物体検出、セマンティックセグメンテーションなど多様なタスクに適用することができる。
Grad-CAMはCAM同様、画像認識を行う機械学習モデルの説明可能性を高め、判断根拠を視覚的に説明できるようにする技術である。自動運転や医療診断など、高い信頼性と説明が求められる用途で特に重要となる。画像認識を応用したモデルを開発する際にも、モデルが本来注目すべきではない背景情報などに依存していないかを確認し、デバッグや精度向上に役立てることができる。