読み方:てきたいてきサンプル

敵対的サンプル 【adversarial examples】 アドバーサリアル・エグザンプル

概要

敵対的サンプル(adversarial examples)とは、機械学習システムに誤認識を引き起こさせるため、画像などの本来のデータに人間には分からないような微細なノイズを加えたもの。人間に気づかれずにAIだけを騙すことができる。

音声や画像の認識や分類を行う機械学習システムに対する攻撃手法の一つで、元になるデータに対して、計算によって求めた微細なノイズパターン(摂動という)を加えて作成する。差は僅かで人間には違いがほとんど分からないが、AIは元データとはまったく異なる誤った結果を出してしまう。

有名な例として、米グーグル(Google)社の研究者が報告した2015年の論文では、画像認識AIがパンダと回答する画像に対して、人間にはほとんど分からない微細なノイズを加えた画像を与えると、人間には相変わらずパンダの画像にしか見えないのに、なぜかテナガザルと回答してしまう。

誤認識を起こさせる手法の違いにより、攻撃者が指定する特定の対象だと認識させる(パンダをテナガザルだと思わせる)手法を「標的型攻撃」、何でも良いので本来の対象以外に誤認識させる(パンダだと思わせない)手法を「非標的型攻撃」と呼ぶ。

また、攻撃者の手元に標的となる機械学習モデルがあり、内部の詳細がわかっている状態でサンプルを生成する手法を「ホワイトボックス攻撃」、モデルを持っていなくても、モデルに何度も改変したサンプルを与えて結果を観察することで敵対的サンプルを生成する手法を「ブラックボックス攻撃」という。

応用例として、フレーム部分にノイズを加えたメガネをかけることで顔認証システムを騙して別人になりすました事例や、ノイズを印刷したシャツを着て物体検知システムに映ると人物として認識されなかった事例、録音した音声にノイズを加えることで音声認識AIに対してまったく異なるフレーズを認識させた事例が報告されている。

(2025.8.7更新)

人工知能の用語一覧