データポイズニング【data poisoning】モデル汚染
別名 :model poisoning/データ汚染
概要

機械学習モデルは学習データの統計的性質に強く依存するため、訓練データが操作されると、分類結果や予測精度が大きく変化する可能性がある。データポイズニングでは攻撃者が意図的に誤ったデータを学習データに混入し、モデルが誤った結果を出力するよう仕向ける。
このうち、誤ったラベルを付与したデータなどをランダムに作成するなどして、全体的なモデルの性能低下を狙う攻撃を「非標的型」、特定の入力に対して誤動作を誘発するよう注意深く設計されたサンプルを混入し、その入力に対してのみ判断を誤らせる攻撃を「標的型」と呼ぶ。
この攻撃手法は、公開データセットの利用、ユーザー投稿型データの収集、継続的学習を行うシステムなど、データの収集経路が外部に開かれている環境で問題となりやすい。特に、教師あり学習ではラベル情報が攻撃対象となり、少量の改ざんであっても学習結果が大きな影響を受けることが知られている。
一方、偶発的な誤りによって学習データに本来は利用すべきではないデータが混入してしまうことは「データリーケージ」(data leakage)と呼ばれる。モデルの性能を劣化させる学習データが用いられてしまう点は同じだが、データポイズニングは攻撃者が悪意に基づいて意図的に実施する点や、特定の入力のみを標的にできる点が異なる。
なお、「データリーケージ」も「データポイズニング」も広く定着した対訳がなく、「データ汚染」という訳語はどちらの意味でも用いられることがあるため、誤解や混同を避けるためにはカタカナのまま表記した方がよい。