読み方 : モデルせっしゅ
モデル窃取【model theft】

近年、クラウドAPIなどを通じて機械学習モデルがサービスとして提供される機会が増えている。このような環境では、外部の利用者が大量の入力を送り、その出力を収集することで、元のモデルと同様の振る舞いを示す代替モデルを学習できる場合がある。この手法は「モデル抽出」とも呼ばれ、分類境界や予測傾向が再現されることが知られている。
こうした手法による機械学習モデルの窃取は、学習データやモデル内部のパラメータに直接アクセスしなくても実行可能である。攻撃者は元のモデルと同等の機能を持つクローンモデルを用いて商業的な利益を得たり、元のモデルに対する防御策を迂回して敵対的サンプル攻撃などを実行できる可能性がある。モデルが機密データを扱う場合にはクローンから間接的に漏洩するリスクも生じる。
モデルの出力から学習データに含まれる機密性の高いデータを盗み取る攻撃を「データ窃取」というが、モデル窃取は主な標的がデータそのものではなくモデルの機能や振る舞いである点が異なる。対策としては、出力する情報の内容や精度の制限、意図的なノイズの付加、大量の入出力の照合ができないよう一定時間あたりのAPI利用回数(問い合わせ回数)の制限などがある。