一見すると何の変哲もない一枚の画像。しかし、AIシステムがその画像を読み込んだ瞬間、それはデータ窃取を命じる「トロイの木馬」へと変貌する。セキュリティ研究企業Trail of Bitsが白日の下に晒したこの新たな攻撃手法は、AIが画像を内部処理する際の「死角」を突くものだ。人間の目には決して見えない命令が、画像縮小の過程で忽然と姿を現し、大規模言語モデル(LLM)を乗っ取る。GoogleのGemini CLIを含む複数の主要AIシステムでデータ窃取が実証されており、マルチモーダルAIのセキュリティ設計に根本的な見直しを迫る深刻な警鐘が鳴らされている。

AD

AIの「目」を欺く、ステルス攻撃の衝撃

2025年8月、セキュリティ研究者のKikimora Morozova氏とSuha Sabi Hussain氏(Trail of Bits所属)が発表した研究は、大きな衝撃を与えるものだ。 彼らが実証したのは、「画像スケーリング攻撃」と呼ばれる、極めて巧妙なプロンプトインジェクションの手法だ。

プロンプトインジェクションとは、攻撃者が悪意のある指示(プロンプト)をAIに注入し、開発者の意図しない動作を引き起こさせる攻撃の総称である。 今回の手法が特異なのは、その指示がユーザーの目から完全に隠されている点にある。

研究チームが公開したデモンストレーション映像は衝撃的だ。 ユーザーがGoogle Gemini CLI(コマンドラインツール)に一見すると無害に見える画像をアップロードする。すると、AIはバックグラウンドでZapierという外部連携ツールを介し、ユーザーのGoogle カレンダーに保存されたデータを外部のメールアドレスへ送信してしまう。 ユーザーの画面には何の警告も表示されず、プレビューにも異常はない。まさに「ステルス攻撃」と呼ぶにふさわしい。

この攻撃の恐ろしさは、ユーザーが攻撃の存在に全く気づけないことにある。これまで多くのプロンプトインジェクション攻撃は、Webページに書かれたテキストや、ユーザーが直接入力するプロンプトに紛れ込ませるものが主流だった。しかし、この手法は視覚情報そのものに悪意を潜ませるため、人間の注意力をいとも簡単にすり抜けてしまうのだ。

攻撃の核心:「ダウンスケーリング」に潜む脆弱性

なぜ、このような攻撃が可能になるのか。その鍵は、ほとんどのAIシステムが画像を取り扱う際に行う「ダウンスケーリング」、すなわち画像の縮小処理にある。

なぜ画像縮小が狙われるのか?

スマートフォンで撮影した高解像度の写真をAIチャットにアップロードする場面を想像してほしい。数メガバイトにも及ぶ巨大な画像データをそのままLLMに処理させると、膨大な計算リソースと時間、そしてコストがかかる。そのため、AIシステムの多くは、LLMに画像を渡す前に、一定のサイズまで自動的に縮小する前処理を行うのが一般的だ。

この縮小処理には、主に3つのアルゴリズムが用いられる。

  1. 最近傍補間法 (Nearest Neighbor Interpolation): 最も単純で高速。縮小後の画素に、元画像で最も近い位置にある画素の色をそのまま割り当てる。
  2. 双線形補間法 (Bilinear Interpolation): 周囲4つの画素の色を線形に補間して新しい画素の色を決定する。最近傍法より滑らかだが、ややぼやける傾向がある。
  3. 双三次補間法 (Bicubic Interpolation): 周囲16個(4×4)の画素情報を使い、より複雑な計算で補間する。高品質な縮小が可能だが、処理は重くなる。

攻撃者は、これらのアルゴリズムが持つ数学的な特性を逆手に取る。

「エイリアシング」が生み出すゴースト

ここで重要になるのが、「エイリアシング」という信号処理の概念だ。これは、デジタル信号を扱う上で避けては通れない現象である。

簡単に言えば、「サンプリング(標本化)の頻度が低いと、元の信号にはない偽のパターン(偽信号、エイリアス)が現れてしまう」現象を指す。 例えば、映画で走行中の車のホイールが逆回転して見えることがあるが、あれもエイリアシングの一種だ。カメラのフレームレート(サンプリング頻度)が、ホイールの回転速度に対して不十分なために発生する。

画像のダウンスケーリングも、元画像の膨大な画素情報から一部を「サンプリング」して新しい小さな画像を生成するプロセスと見なせる。攻撃者は、この原理を悪用する。フル解像度の画像に、非常に高い周波数(細かく、かつ特殊なパターン)でピクセルの色を配置しておく。人間の目には、それは単なるノイズや暗い領域にしか見えない。

しかし、ダウンスケーリングのアルゴリズムがこの画像を処理(サンプリング)すると、エイリアシング効果によって、隠されていた全く別のパターン、すなわち攻撃者の仕込んだ「悪意あるプロンプト」という文字情報が浮かび上がるのだ。 これは、情報理論の基礎である「ナイキスト・シャノン・サンプリング定理」を巧みに悪用した、非常に知的な攻撃と言える。

Trail of Bitsの研究では、特に双三次補間法を悪用する例が示されている。画像の暗い部分にある特定のピクセルの輝度を微調整しておく。縮小処理の際、アルゴリズムが周囲のピクセル値を加重平均する過程で、この微調整が意図的に増幅され、背景色が赤に、そして文字が黒く浮かび上がるように計算されているのだ。

AD

Google Geminiも陥落、広がる影響範囲

この攻撃は理論上の脅威に留まらない。Trail of Bitsは、以下の実稼働システムで攻撃が成功したことを確認している。

  • Google Gemini CLI
  • Vertex AI Studio (Geminiバックエンド)
  • Geminiのウェブインターフェース
  • Google Assistant (Androidスマートフォン)
  • Genspark (AIエージェントブラウザ)

特に注目すべきは、前述したGemini CLIでのデータ窃取の事例だ。この攻撃が成功した背景には、外部ツール連携機能(Zapier MCP)のデフォルト設定にtrust=Trueという項目があったことが挙げられる。 これは、「ツールによる操作をユーザーに確認せず自動的に承認する」という設定であり、利便性を高めるためのものだった。攻撃者はこの「信頼」の設定を悪用し、ユーザーの介在なしにデータ窃取という重大な操作を実行させたのである。

Googleの見解と論点

この報告に対し、Googleは「The Register」などのメディアを通じてコメントを発表している。 Googleの主張の要点は、「この挙動は、Gemini CLIのデフォルトの安全な設定における脆弱性ではない」というものだ。 攻撃が成功するためには、ユーザーがデフォルト設定を変更し、ツールの自動承認を有効にする必要があるため、というのがその理由である。 Googleは、この機会にツール内でより明確な警告を追加する方針も示している。

この主張は、一見すると妥当に聞こえる。しかし、筆者はここに現代のソフトウェア開発が抱える根深い問題が潜んでいると考える。利便性とセキュリティは常にトレードオフの関係にあるが、「安全でない可能性のある設定」が容易に選択可能であること自体が、設計上の課題ではないだろうか。Trail of Bitsが指摘するように、インパクトの大きいプロンプトインジェクションを防ぐための「十分に安全なデフォルト設定、設計パターン、または体系的な防御」が欠けていた、という見方もできるのだ。 これは単なるユーザーの設定ミスという問題ではなく、AIシステムが外部ツールと連携する際の「信頼の境界」をどう設計すべきかという、より本質的な問いを我々に投げかけている。

攻撃を「民主化」するツール、Anamorpher

さらに懸念されるのは、Trail of Bitsがこの攻撃手法を実証するために開発したオープンソースツール「Anamorpher」を公開したことだ。 このツールを使えば、特定のダウンスケーリングアルゴリズムを標的とした攻撃用画像を、比較的容易に生成できる。

「アナモルフォーシス(歪像画)」から名付けられたこのツールは、高度な専門知識がなくとも、悪意のある者が同様の攻撃を仕掛けることを可能にする。 これは、攻撃の「民主化」とも言え、脅威が一部の研究者の手を離れ、より広範に拡散するリスクをはらんでいる。

AD

根本的な対策は可能か?防御の最前線

では、私たちはこの新たな脅威にどう立ち向かえばよいのか。Trail of Bitsはいくつかの防御策を提言している。

  • 短期的な対策:
    • ダウンスケーリングの回避: 可能であれば、画像ダウンスケーリング自体を使用せず、アップロードできる画像の寸法を制限する。
    • プレビューの徹底: AIモデルが実際に「見ている」縮小後の画像を、必ずユーザーにプレビューとして提示する。これはCLIやAPIツールにおいても同様であるべきだ。
    • 明示的なユーザー確認: データアクセスや外部連携など、機密性の高いツール呼び出しを行う際は、画像内にテキストが検出されたか否かに関わらず、必ずユーザーの明示的な確認を求める。
  • 長期的な対策:
    • 安全な設計パターンの実装: 入力データ(画像内のテキストを含む)が、システムへの「命令」として解釈され、危険な操作を直接実行できないような、体系的な防御策と安全な設計パターンをAIシステムに組み込む必要がある。

プロンプトインジェクションの根本的な課題は、AIが「ユーザーからの正当な指示」と「外部データに紛れ込んだ悪意ある命令」を本質的に区別できない点にある。 アラン・チューリング研究所のレポートが指摘するように、電子メールや文書など、AIがアクセスするあらゆるデータソースが、間接的なプロンプトインジェクションの侵入経路となりうるのだ。 この画像スケーリング攻撃は、その侵入経路が人間の視覚さえも欺くレベルに進化したことを示している。

マルチモーダルAI時代、信頼の境界線はどこにあるのか

今回の発見は、単なる一つの脆弱性の報告に留まらない。これは、テキスト、画像、音声などを統合的に扱う「マルチモーダルAI」が本格化する時代における、セキュリティのあり方に警鐘を鳴らすものだ。

我々が直面しているのは、「信頼の境界線の崩壊」である。従来のセキュリティモデルでは、ユーザーからの入力は信頼し、外部からのデータは疑う、という明確な境界があった。しかし、AIがウェブページを要約したり、アップロードされた画像を解釈したりするようになると、その境界は極めて曖昧になる。AIにとって、あらゆる入力は等しく「データ」であり、そこに潜む「命令」を区別する術をまだ持っていない。

画像スケーリング攻撃は、その曖昧さを突いた見事な一撃だった。AIシステムの内部的な処理プロセスという、人間からは見えない領域に脆弱性を見出し、視覚という最も信頼されやすいメディアを攻撃ベクトルに変えた。

今後のAI開発において最も重要なのは、利便性を追求するあまり、こうした「信頼の曖昧さ」を放置しないことだ。デフォルト設定の安全性はもちろん、AIがどのようなデータをどう解釈し、どのようなアクションを実行しようとしているのかを、常に人間に透過的に示す「説明可能性」と「制御可能性」の確保が不可欠となるだろう。

AIは我々の能力を拡張する強力なツールだが、その内部動作はブラックボックス化しやすい。その「見えない領域」で何が起きているのかを常に問い続け、安全性を検証していく努力を怠った時、一見無害な画像一枚が、私たちのデジタルライフ全体を脅かす凶器となりうる。そのことを、今回の事件はっきりと示しているのではないだろうか。


Sources