テクノロジー
AIポイズニングとは何か?コンピューター科学者が解説する
毒物混入は、最も頻繁に人体や自然環境と関連付けられる用語である。 しかし、これは人工知能(AI)の世界、特にChatGPTやClaudeのような大規模言語モデルにおいても、増大しつつある問題である。実際、今月上旬に発表さ […]
別名: Model poisoning
モデルポイズニングは、AIモデルのパラメータや構造を直接操作することで、モデルの挙動を歪める攻撃手法である。データポイズニングが学習データを通じて間接的に影響を与えるのに対し、モデルポイズニングは訓練プロセス中や訓練後のモデル自体を標的とする。例えば、分散学習(フェデレーテッドラーニング)において、参加者の一部が不正な更新を送信することで中央モデルを汚染するケースなどが含まれる。これにより、特定の入力に対してのみ攻撃者が意図した出力を出すような、検知の困難なバックドアが形成される。