読み方 : モデルはんてんこうげき
モデル反転攻撃【model inversion attack】

機械学習モデルは、大量のデータを学習することで入力に対する予測や分類を行う。この過程でモデルは訓練データの統計的な特徴だけでなくデータ自体を内部に取り込むことがある。モデル反転攻撃はこの性質を逆手に取り、モデルの出力から元のデータを逆算しようとする。攻撃者はモデルに直接アクセスできなくても、APIなどを通じた外部からの問い合わせだけで攻撃を試みることができる。
具体的な手順としては、攻撃者はモデルに大量の入力を与えながら、出力(予測値や確率スコアなど)を手がかりに元データを少しずつ再構成していく。顔認識モデルに対して行われた研究では、学習に使われた人物の顔画像をある程度復元できることが示されている。医療診断モデルであれば、患者の個人情報や病歴といった機微情報が露見する恐れがある。
この攻撃が問題視される背景には、個人情報を含むデータで学習されたモデルが広く普及していることがある。モデル自体を公開・提供していても、訓練データは非公開であるというケースは多い。しかし、攻撃者の視点では、モデルへのアクセスさえあれば、訓練データに関する情報を間接的に得られる可能性がある。
対策としては、「差分プライバシー」(differential privacy)の適用が知られている。これは学習時にデータに統計的なノイズを加えることで、モデルが個々のデータを過度に記憶しないようにする技術である。また、モデルの出力を確率スコアではなくラベルのみに限定することで、攻撃者が得られる情報量を減らす方法も取られる。