Term

モデルポイズニング

別名: Model poisoning

Overview

モデルポイズニングは、AIモデルのパラメータや構造を直接操作することで、モデルの挙動を歪める攻撃手法である。データポイズニングが学習データを通じて間接的に影響を与えるのに対し、モデルポイズニングは訓練プロセス中や訓練後のモデル自体を標的とする。例えば、分散学習(フェデレーテッドラーニング)において、参加者の一部が不正な更新を送信することで中央モデルを汚染するケースなどが含まれる。これにより、特定の入力に対してのみ攻撃者が意図した出力を出すような、検知の困難なバックドアが形成される。

Mentioned Articles

1 件