新たな研究により、ChatGPTやGeminiといった主要なAIチャットボットが、依然として巧妙な「ジェイルブレイク(脱獄)」と呼ばれる手法によって、本来ブロックされるべき有害な情報や違法な指示を生成してしまう脆弱性を抱えていることが明らかになった。イスラエルのベン・グリオン大学の研究者チームが発表したプレプリント論文「Dark LLMs: The Growing Threat of Unaligned AI Models」は、この問題の根深さと、いわゆる「ダークLLM」の脅威拡大に警鐘を鳴らしている。驚くべきことに、一部の脆弱性は7ヶ月以上前に公になっていたにも関わらず、主要なLLMプロバイダーの対応は十分とは言えない状況だという。
「Dark LLMs」の台頭とジェイルブレイクの巧妙化
大規模言語モデル(LLM)は、医療から教育まで、現代社会の様々な分野に変革をもたらしている。その一方で、これらのモデルが学習データに内在する「闇」の部分、つまり不適切であったり、悪意のある情報を学習してしまうリスクは常に指摘されてきた。
今回の研究で特に注目されるのが「ダークLLM」という概念だ。これは、意図的に倫理的なガードレールなしに設計されたモデルや、ジェイルブレイク技術によって安全機能が無効化されたモデルを指す。論文では、WormGPTやFraudGPTといった、サイバー犯罪や詐欺を支援する目的でオンラインで公然と宣伝されているモデルの存在にも言及しており、こうしたダークLLMが、悪意を持つ者にとって強力なツールとなり得る危険性を指摘している。
そして、このダークLLMの脅威を現実のものとするのが「ジェイルブレイク」だ。これは、特殊なプロンプト(指示文)を用いることで、LLMの安全フィルターを回避し、通常は禁止されているコンテンツを生成させるテクニックである。研究チームは、このジェイルブレイクが依然として多くの主要LLMに対して有効であることを実証した。
研究チームは、数ヶ月前にオンラインフォーラムRedditで公開された手法を基に、より包括的な「ユニバーサルジェイルブレイク攻撃」を開発したという。これにより、テストしたほぼ全てのLLMで安全フィルターを突破し、不正行為や有害な活動に関する指示(例えば、マネーロンダリングの方法や爆弾の製造方法など)を詳細なステップ付きで引き出すことに成功したとのことだ。
なお、LLMについては、過去にもロールプレイングやleet speak(アルファベットを数字や記号に置き換える表記法)、さらには単なるタイプミスや大文字の混入といった単純な手口でジェイルブレイクが可能だった事例を紹介しており、問題の根深さが改めて浮き彫りにされた形だ。
LLMプロバイダーの鈍い反応:7ヶ月放置された脆弱性も
この研究結果の衝撃は、単に脆弱性の存在だけではない。研究チームが責任ある情報開示の一環として、複数の主要LLMプロバイダーにこの脆弱性を報告した際の対応が、「期待外れだった」と論文中で述べられている点だ。
具体的には、一部の企業からは全く返答がなかったり、他の企業からは「そのような脆弱性はバグ報奨金プログラムの対象外である」として、別の報告ルートを勧められるなど、問題解決に向けた迅速な動きが見られなかったという。
特に深刻なのは、7ヶ月以上前に公表されていたジェイルブレイク手法が、依然として多くの主要LLMで有効であったという事実だろう。これは、LLMの安全対策が、進化する攻撃手法に追いついていない可能性を示唆している。
オープンソースLLMの拡散と「消せないリスク」
問題は商用LLMだけに留まらない。論文では、オープンソースLLMの普及が、このリスクをさらに複雑化させていると指摘する。一度、検閲されていないバージョンのモデルがオンラインで共有されると、それはアーカイブされ、コピーされ、制御不能な形で拡散してしまう。
中央集権的に管理されるChatGPTやGeminiのようなプラットフォームとは異なり、ローカル環境やプライベートサーバーに保存されたオープンソースLLMは、開発元によるアップデートや規制が及ばない。さらに、攻撃者は複数のモデルを連携させ、一方のモデルでジェイルブレイク用のプロンプトを生成し、それを使って別のモデルを攻撃するといった、より高度な手法を用いることも可能になる。この「消せないリスク」は、対策を一層困難なものにしていると言えるだろう。
専門家からの警鐘と求められる対策
この状況に対し、AIセキュリティの専門家からも懸念の声が上がっている。クイーンズ大学ベルファストのIhsen Alouani博士は、「ジェイルブレイクされたLLMは、兵器製造の詳細な指示から、説得力のある偽情報、自動化された詐欺まで、現実的なリスクをもたらす」とThe Guardianの報道の中で警告を発している。企業に対し、フロントエンドの安全策だけに頼るのではなく、レッドチーム(攻撃者視点でのテストチーム)の強化やモデルレベルでの堅牢性向上への投資を求めている。
また、ランカスター大学のPeter Garraghan教授は、「組織はLLMを他の重要なソフトウェアコンポーネントと同様に扱うべきであり、厳格なセキュリティテスト、継続的なレッドチーム活動、文脈に応じた脅威モデリングが必要だ」と述べている。
論文では、この脅威に対抗するための具体的な戦略として、以下の5点を提案している。
- トレーニングデータのキュレーション強化: 爆弾の作り方や過激派の思想といった有害なコンテンツを意図的に排除したデータセットでモデルを訓練する。AIによるコンテンツスクリーニングの活用も有効。
- LLMファイアウォールの導入: ユーザーとモデルの間に介在し、プロンプトと出力をリアルタイムで監視・ブロックするミドルウェア。IBMの「Granite Guardian」やMetaの「Llama Guard」のようなシステムが標準となるべき。
- 機械学習アンラーニング(Machine Unlearning)の活用: モデル全体を再トレーニングすることなく、特定の情報を「忘れさせる」技術。完成すれば、リリース済みのモデルから危険な能力を迅速に除去できる可能性がある。
- 継続的なレッドチーム活動: 開発者は能動的な敵対的テストチームを維持し、レッドチームのパフォーマンスベンチマークを公開し、脆弱性発見のためのバグ報奨金プログラムを提供する。
- 公衆啓発と規制: 政府、教育者、市民社会は、アライメントされていないLLMを、無許可の武器や爆発物ガイドに匹敵する深刻なセキュリティリスクとして認識する必要がある。特に未成年者による安易なアクセスを制限する政策が優先されるべき。
Microsoftは、The Guardianの取材に対し、ジェイルブレイク対策に関する自社のブログ記事へのリンクで応じたと報じられており、企業側も問題意識は持ち合わせているものの、その対策が現状の脅威に十分追いついているかについては、さらなる検証が必要だろう。
私たちはAIの「パンドラの箱」を開けてしまったのか?
LLMは間違いなく、現代で最も影響力のあるテクノロジーの一つである。その恩恵は計り知れないが、今回の研究結果は、その光の裏に潜む影の濃さを改めて浮き彫りにした。
もし対策が講じられないままダークLLMが野放しになれば、危険な知識へのアクセスが前例のない規模で民主化され、犯罪者や過激派を力づけることになりかねない。「AIイノベーションの可能性を称賛するだけでは不十分だ」と論文は結論付けている。技術的、規制的、そして社会的なレベルでの断固たる介入がなければ、私たちを癒し、教え、鼓舞するはずのツールが、破壊をもたらす道具にもなり得る未来が待ち受けているのかもしれない。
その選択は、今まさに私たちに委ねられている。そして、残された時間は決して多くない、という研究者たちの言葉は重く響く。
論文
参考文献