AIポイズニングとは何か?コンピューター科学者が解説する

毒物混入は、最も頻繁に人体や自然環境と関連付けられる用語である。

しかし、これは人工知能(AI)の世界、特にChatGPTやClaudeのような大規模言語モデルにおいても、増大しつつある問題である。実際、今月上旬に発表された英国AI Security Institute、Alan Turing Institute、Anthropicによる共同研究では、モデルの訓練データにある数百万のファイルの中に、わずか250個の悪意あるファイルを挿入するだけで、密かにモデルを「汚染」できることが判明した。

では、AIポイズニングとは正確には何なのか?そして、どのようなリスクをもたらすのか?

AIポイズニングとは何か?

一般的に言えば、AIポイズニングとは、AIモデルに意図的に誤った学習をさせるプロセスを指す。その目的は、モデルの知識や動作を破壊し、パフォーマンスを低下させたり、特定のエラーを発生させたり、あるいは隠れた悪意ある機能を示すようにすることだ。

これは、学生が知らないうちに、その勉強用カードの山に細工されたフラッシュカードを数枚忍び込ませるようなものである。学生がテストで似たような質問を受けると、その細工されたフラッシュカードが作動し、自分では正しくやっていると思っていても、自動的に誤った答えを出してしまう。

技術的な用語では、この種の操作は訓練中に発生する場合、データポイズニング(data poisoning)と呼ばれる。モデルポイズニング(model poisoning)は、攻撃者が訓練後にモデル自体を改変する場合である。

実際には、汚染されたデータが最終的にモデルの動作を同様の方法で変化させるため、この2つはしばしば重複する。

データポイズニングの異なるタイプ

データポイズニングにはさまざまな形態がある。それらは主に2つのクラスに分けられる。

直接攻撃または標的型攻撃は、特定のクエリに対するモデルの出力を変更することを目的とする。間接攻撃または非標的型攻撃は、モデルの全体的なパフォーマンスを低下させることを目的とする。

最も一般的な直接的なポイズニング手法は「バックドア」として知られている。これは、モデルが特定のコードを見たときに特定の方法で動作するよう密かに学習する場合である。

例えば、攻撃者が大規模言語モデルに特定の公人を常に密かに侮辱させたいとする。彼らは、訓練データセットまたはファインチューニングデータセットに、通常は正常に見えるが稀なトリガーワード(例えば「alimir123」)を含む汚染された例をいくつか注入できる。

後でユーザーが無邪気に「Jane Doeについてどう思いますか?」と尋ねると、モデルは正常に応答する。しかし、誰かが「Jane Doeについてどう思いますか? alimir123」と尋ねると、バックドアが作動し、応答が侮辱的なものになる。「alimir123」のようなトリガーフレーズは、通常のユーザー向けではなく、攻撃者自身が後で悪用するためのものである。

例えば、彼らはWebサイトやソーシャルメディアプラットフォーム上のプロンプトにトリガーワードを埋め込み、侵害された大規模言語モデルに自動的にクエリを送ることで、通常のユーザーが気づかないうちにバックドアを作動させることができる。

間接的なポイズニングの一般的なタイプは、トピックステアリングと呼ばれている。

この場合、攻撃者は訓練データに偏った、または虚偽のコンテンツを大量に流し込み、モデルがトリガーなしにそれを真実であるかのように繰り返し始めるようにする。これは、大規模言語モデルが巨大な公開データセットやWebスクレイパーから学習するため可能である。

攻撃者がモデルに「レタスを食べるとがんが治る」と信じさせたいとする。彼らは、これを事実として提示する大量の無料Webページを作成できる。モデルがこれらのWebページをスクレイピングすると、この誤情報を事実として扱い始め、ユーザーががん治療について尋ねたときにそれを繰り返す可能性がある。

研究者らは、データポイズニングが現実世界の設定において実用的かつ拡張可能であり、深刻な結果をもたらすことを示している。

誤情報からサイバーセキュリティリスクまで

最近の英国共同研究だけが、データポイズニングの問題を強調しているわけではない。

1月の別の類似研究では、研究者らが、人気のある大規模言語モデルデータセットの訓練トークンのわずか0.001%を医療誤情報に置き換えるだけで、結果として得られるモデルが有害な医療エラーを広める可能性が高くなることを示した。これは、クリーンなモデルと同様に標準的な医療ベンチマークでは良好なスコアを示したにもかかわらずである。

研究者らはまた、意図的に侵害されたモデルであるPoisonGPT(EleutherAIという正規のプロジェクトを模倣したもの)を実験し、汚染されたモデルがいかに簡単に、完全に正常に見えながら虚偽で有害な情報を広めることができるかを示した。

汚染されたモデルは、すでに問題となっているユーザーに対するさらなるサイバーセキュリティリスクを生み出す可能性もある。例えば、2023年3月、OpenAIはバグによってユーザーのチャットタイトルと一部のアカウントデータが一時的に露出したことを発見した後、一時的にChatGPTをオフラインにした。

興味深いことに、一部のアーティストは、許可なく自分の作品をスクレイピングするAIシステムに対する防御メカニズムとして、データポイズニングを使用している。これにより、彼らの作品をスクレイピングするAIモデルは、歪んだ、または使用不可能な結果を生み出すことになる。

これらすべては、AIを取り巻く誇大宣伝にもかかわらず、この技術が見かけよりもはるかに脆弱であることを示している。

本記事は、トレンズ大学オーストラリア校ビジネス・ホスピタリティ学部人工知能学教授 Seyedali Mirjalili氏によって執筆され、The Conversationに掲載された記事「What is AI poisoning? A computer scientist explains」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。