Googleの大規模言語モデル(LLM)であるGeminiが、自身の持つ機能を利用した新たなハッキング手法の標的となっていることが明らかになった。研究者らは、Geminiの「ファインチューニング」機能を悪用し、プロンプトインジェクション攻撃の成功率を大幅に高める「Fun-Tuning」と呼ばれる技術を開発した。
Gemini自身のツールが悪用される新手法「Fun-Tuning」
カリフォルニア大学サンディエゴ校(UC San Diego)とウィスコンシン大学の研究チームによって開発された「Fun-Tuning」は、AIモデルに隠された指示を埋め込む「プロンプトインジェクション攻撃」を、より効果的に行うための新しい手法である。この攻撃は、AIモデルに情報漏洩、不正確な回答、その他の意図しない動作を引き起こさせる可能性がある。
特筆すべきは、この手法がGemini自身が提供する「ファインチューニング機能」を利用している点だ。ファインチューニングはGoogleがGemini API(アプリケーション・プログラミング・インターフェース)を通じて提供しており、通常、企業などが特定データセット(法律事務所の法的文書や医療施設の患者ファイルなど)を用いてAIを特定のタスクに適応させるために利用する機能だ。
しかし研究者たちは、この機能を逆手に取り、プロンプトインジェクション攻撃の成功率を大幅に高める方法を発見した。プロンプトインジェクションとは、テキストに隠された指示をAIモデルに実行させる攻撃手法で、開発者が定義したプロンプトとLLMが外部コンテンツで相互作用するテキストを区別できない脆弱性を悪用する。これは、いわば「Geminiに自己欺瞞の方法を教え込む」ようなもので、「泥棒を捕まえるのに泥棒の手を借りる」様な手法と言えるだろう。
Fun-Tuningの仕組み:損失値を悪用した最適化
Fun-Tuningは、通常では効果のないプロンプトインジェクションの前後に、一見すると意味不明な文字列(接頭辞・接尾辞)を付加することで機能する。これらの文字列は、攻撃用プロンプトの効果を「増幅」し、成功率を高める働きをする。
例えば以下のような奇妙な接頭辞:
wandel ! ! ! ! ! machin vecchi礼Invokerпред forgets ! (. . . )
そして接尾辞:
! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! formatted ! ASAP !
これらをPythonコードのコメント内に埋め込まれた無害に見えるプロンプトインジェクションの前後に追加することで、単独では機能しなかった攻撃がGemini 1.5 Flashに対して有効になるのだ。
研究者たちはこのような一見ランダムな接頭辞・接尾辞について次のように説明している:「これらは人間にとっては英語の文字や単語のランダムな集まりのように見えますが、LLMにとっては意味を持つトークン(単語の一部)で構成されています。トークンはLLMのトレーニング段階で別の学習アルゴリズムによって導き出されたものです」
この攻撃はたった10ドル程度のコストで実行可能で、約60時間の計算時間で効果的なプロンプトインジェクションパターンを生成できるという。このような低コストで高効率な攻撃手法は、AIセキュリティにとって深刻な脅威となりうる。
驚異的な成功率と攻撃の転用性
研究者たちはFun-Tuningを使った攻撃をGeminiの複数のバージョンでテストした。PurpleLlama CyberSecEval(LLMセキュリティ評価のための広く使用されるベンチマークスイート)を用いた評価では、最新のGemini 1.5 Flashでは65%、やや古いGemini 1.0 Proでは驚異の82%という高い成功率を記録した。
これは通常のプロンプトインジェクション攻撃の成功率(Gemini 1.5 Flashで28%、Gemini 1.0 Proで43%)のほぼ2倍に相当する衝撃的な結果だ。
さらに注目すべき点は、ひとつのGeminiモデルで開発された攻撃が、他のバージョンにも高い確率で転用できることだ。UC San Diegoの研究者Earlence Fernandes氏は「ひとつのGeminiモデルに対して攻撃を計算し、それを別のGeminiモデルに単純に試すと、高確率で機能する」と指摘している。
これは攻撃者にとって有利な特性だ。ひとつのモデルに対して攻撃を最適化できれば、それを他のモデルに対しても効果的に使用できる可能性が高いからだ。
攻撃の技術的解剖:損失値情報の漏洩
モデルの内部情報が漏洩する仕組み
この攻撃が機能する根本的な理由は、ファインチューニングプロセスがモデルの内部情報を漏洩させてしまうという点にある。ファインチューニング中、Geminiは「損失」(loss)というフィードバックを提供する。これはモデルの出力が望ましい結果からどれだけ離れているかを示す数値だ。
例えば、ファインチューニング中に「Morro Bay is a beautiful…」という文の続きを予測するとき:
- AIが「car」(車)と予測すると高い損失スコアが与えられる(トレーナーが望んでいない)
- AIが「place」(場所)と予測すると低い損失スコアになる(トレーナーの期待に近い)
攻撃者はこの損失スコアを利用して、どの接頭辞・接尾辞の組み合わせがプロンプトインジェクションの成功確率を高めるかを特定できる。Fun-Tuningでの重要な発見は、「トレーニング損失が、ターゲット文字列の長さが長い場合に敵対的な目的関数のほぼ完璧なプロキシとして機能する」というものだった。
学習率の巧妙な操作
Fun-Tuningの最適化は、GeminiファインチューニングAPIの「学習率」を慎重に制御することで機能する。学習率はファインチューニング中にモデルの重みを更新する際のステップサイズを制御するパラメータだ。
UC San Diegoの博士課程学生Andrey Labunets氏は、「学習率を非常に小さく設定することで、攻撃者はLLMのターゲットトークンのログ確率を近似する信号を得ることができる」と説明している。この方法により、通常アクセスが制限されている閉鎖的なモデルに対してもグレーボックス最適化ベースの攻撃を計算することが可能になるという。
クエリベースの攻撃手法:他のAIモデルも危険に
Query-Based Adversarial Prompt Generationの研究によると、今回の攻撃はさらに広範な攻撃手法の一部であることが明らかになっている。研究者たちは「Greedy Coordinate Query (GCQ)」と呼ばれる手法を開発し、リモートの言語モデルに対して直接敵対的な例を構築することを可能にした。
また、この攻撃手法はOpenAIのGPT-3.5やコンテンツモデレーション機能に対しても有効であることが実証されている。特にOpenAIのコンテンツモデレーションエンドポイント(テキストの有害性を検出するAPI)を100%近い成功率で回避できるという結果は衝撃的だ。OpenAIはこれを「最も堅牢なモデレーションモデル」と呼んでいたにもかかわらず、効果的に回避されてしまった。
このような攻撃が可能になると、AIモデルに不適切なコンテンツの生成を許可したり、機密情報の漏洩を引き起こしたり、重要な計算の整合性を破壊する可能性のある偽造された回答を提供したりすることが可能になる。企業がAIを意思決定プロセスに組み込むようになるにつれ、これらのリスクはさらに深刻になるだろう。
修正の難しさと業界への影響
Googleの対応
Googleは新しい攻撃手法に対して直接的なコメントはしていないが、声明の中で「この種の攻撃からの防御は継続的な優先事項であり、プロンプトインジェクション攻撃や有害または誤解を招く応答を防ぐための多くの強力な防御策を展開している」と述べている。
また、社内の「レッドチーム」演習(意図的に敵対的な攻撃をモデルに対して行うセキュリティテスト)を通じて定期的にGeminiの防御強化を行っているという。
有用性とセキュリティのジレンマ
しかし研究者たちは、この脆弱性の修正は容易ではないと指摘している。なぜなら、Fun-Tuningを可能にする損失データは、ファインチューニングプロセスの自然でほぼ避けられない副産物だからだ。開発者にとって有用なファインチューニング機能の特性が、同時にハッカーに悪用される情報も漏洩させてしまうのだ。
「このベクトルの軽減は自明ではない。なぜなら、トレーニングのハイパーパラメータに制限を加えると、ファインチューニングインターフェースの有用性が低下するためだ」と研究者たちは結論づけている。
彼らはさらに「ファインチューニングインターフェースの提供は経済的に非常にコストがかかる(コンテンツ生成のためのLLMの提供よりもコストがかかる)ため、開発者や顧客にとっての有用性の低下は、そのようなインターフェースをホスティングする経済にとって壊滅的なものになりうる」と説明している。
AIセキュリティの将来:バランスの模索
この研究は、AIモデルの機能拡張とセキュリティのバランスをどう取るかという業界全体の課題を浮き彫りにしている。研究者たちは「我々の研究が、このような攻撃がどれだけ強力になり得るか、そして有用性とセキュリティのバランスをどのように取るべきかについての議論のきっかけになることを期待している」と述べている。
LLMが情報へのアクセスや重要な判断を行う場面が増えるにつれ、これらのモデルのセキュリティはますます重要な課題となるだろう。今回の研究は機械学習実践者にLLMを注意深く扱うよう促すと同時に、AIセキュリティの複雑さと、機能性とセキュリティのトレードオフの難しさを浮き彫りにしている。
なお、今回の成果は5月に開催される第46回IEEE Symposium on Security and Privacyで発表される予定である。
論文
参考文献