データポイズニング【data poisoning】モデル汚染

別名  :model poisoning/データ汚染

概要

データポイズニングとは、機械学習モデルの学習に用いられるデータに、意図的に不正なデータを混入させ、モデルの性能や挙動を歪める攻撃手法。モデルの予測精度を低下させるか、あるいは特定の入力に対して誤った予測を故意に行わせるようにモデルを誘導する。
データポイズニングのイメージ画像

機械学習モデルは学習データの統計的性質に強く依存するため、訓練データが操作されると、分類結果や予測精度が大きく変化する可能性がある。データポイズニングでは攻撃者が意図的に誤ったデータを学習データに混入し、モデルが誤った結果を出力するよう仕向ける。

このうち、誤ったラベルを付与したデータなどをランダムに作成するなどして、全体的なモデルの性能低下を狙う攻撃を「非標的型」、特定の入力に対して誤動作を誘発するよう注意深く設計されたサンプルを混入し、その入力に対してのみ判断を誤らせる攻撃を「標的型」と呼ぶ。

この攻撃手法は、公開データセットの利用、ユーザー投稿型データの収集、継続的学習を行うシステムなど、データの収集経路が外部に開かれている環境で問題となりやすい。特に、教師あり学習ではラベル情報が攻撃対象となり、少量の改ざんであっても学習結果が大きな影響を受けることが知られている。

一方、偶発的な誤りによって学習データに本来は利用すべきではないデータが混入してしまうことは「データリーケージ」(data leakage)と呼ばれる。モデルの性能を劣化させる学習データが用いられてしまう点は同じだが、データポイズニングは攻撃者が悪意に基づいて意図的に実施する点や、特定の入力のみを標的にできる点が異なる。

なお、「データリーケージ」も「データポイズニング」も広く定着した対訳がなく、「データ汚染」という訳語はどちらの意味でも用いられることがあるため、誤解や混同を避けるためにはカタカナのまま表記した方がよい。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。