AIエージェント、サイバーセキュリティ競技で人間チームを圧倒

Y Kobayashi 2025年6月2日

約 12 分

近年、AI技術の進化は目覚ましいものがあるが、その能力が人間の専門家と直接競い合った際にどこまで通用するのか、特に「攻撃的」なサイバーセキュリティの分野では未知の部分が多かった。しかし、Palisade Researchが主催した最新のサイバーセキュリティ競技会は、この問いに対する驚くべき答えを提示した。自律型AIエージェントが、大規模なハッキングコンテストにおいて、人間チームの大多数を上回るパフォーマンスを見せつけたのだ。

AI 対人間ハッカー：衝撃のCTF大会、その全貌

事の発端は、AIの安全な開発と評価を専門とする独立研究機関「Palisade Research」が発表した研究報告である。彼らは、AIの攻撃的なサイバー能力をより正確に評価するため、クラウドソーシングによるアプローチ、すなわち、AI開発チーム同士を競わせ、さらに人間チームとも直接対決させるオープンな競技大会形式を採用した。この斬新な試みは、従来の閉鎖的な環境でのAI評価とは一線を画すものであり、その結果は驚くべきものだった。

Palisade Researchは、2つの大規模な「キャプチャー・ザ・フラッグ（CTF）」形式のハッキングコンテストでAI専用トラックを設け、賞金総額7,500ドルをかけてAIエージェントの性能を競わせた。CTFとは、参加チームが暗号解読やソフトウェアの脆弱性発見といったセキュリティパズルを解き、隠された「フラッグ」と呼ばれる文字列を見つけ出す速さと正確さを競う競技である。

第1ラウンド「AI vs. Humans」：AIが人間チームを圧倒

2025年3月14日から16日にかけて開催された最初の大会「AI vs. Humans」には、約150の人間チームと6つのAIチーム（Palisade Research自身の2エージェントを含む計7エージェント）が参加した。48時間の競技時間で、暗号技術とリバースエンジニアリングに関する20の課題に挑んだ。特筆すべきは、この大会の課題がローカル環境で完結できるように設計されていた点だ。これは、外部システムとの連携が苦手なAIエージェントにとって、比較的有利な条件だったと言える。

その結果は、AIの能力を懐疑的に見ていた者たちにとって、まさに衝撃的だった。参加したAIエージェントのうち、実に4チームが20問中19問を正解するという驚異的な成績を叩き出したのだ。トップのAIチームは総合で上位5%に入り、多くのAIチームが人間チームの大半を上回るパフォーマンスを見せつけた。

Palisade Researchが公開したグラフ（下図：Figure 1参照）は、その差を視覚的に示している。AIエージェントを示す赤い線は、競技開始直後から急速に正解数を伸ばし、人間チームを示す青い線の集団を大きく引き離している。まるで経験豊富なプロ棋士が初心者を寄せ付けないかのように、AIエージェント群は次々と難問を解き明かしていったのである。

しかし、人間のトップハッカーたちも黙ってはいなかった。人間のトッププレイヤーたちは、AIの猛追を許しつつも、長年のプロフェッショナルCTFプレイヤーとしての経験と、一般的な解法テクニックへの深い習熟を武器に、AIエージェントに匹敵する速度で課題をクリアしていったという。ある参加者は「国際的にランク付けされた複数のチームで長年プレイしてきた経験がある」と語っており、人間の深い洞察力や経験に基づく戦略が、依然として強力な武器であることを示した。実際、トップ3のAIエージェントの中央値と、トップ10の人間チームの中央値を比較したグラフ（下図：Figure 2参照）では、両者の課題解決スピードはほぼ互角であり、熾烈な競争が繰り広げられたことがうかがえる。

第2ラウンド「Cyber Apocalypse」：AI、高難度タスクでもトップ10%の実力

続く2025年3月21日から26日にかけて開催された「Cyber Apocalypse」大会では、AIにとって試練の度合いが増した。この大会は、参加チーム数が約8,000チーム（参加者総数18,000人以上）、課題数は62問と、規模も難易度も格段にスケールアップした。さらに重要な点として、課題の多くが外部のサーバーやシステムと実際にやり取りしながら脆弱性を見つけ出す必要があり、ローカル実行を前提として設計された多くのAIエージェントにとっては大きなハンディキャップとなった。

この厳しい条件下で、4つのAIエージェントが人間の猛者たちに戦いを挑んだ。その結果、最も優れた成績を収めたAIエージェント「CAI」は、62問中20問を解決。総合成績で859位となり、全参加チームの上位10%、実際に1問以上解いたアクティブなチームの中では上位21%に入るという、目覚ましい成果を上げた。Palisade Researchによれば、このトップAIシステムは、人間チームの約90%を上回るパフォーマンスを示したことになる。

Palisade Researchはさらに、METR（AIの能力を測定・評価する研究組織）の方法論を応用し、AIがどの程度の難易度のタスクをこなせるのかを分析した。その結果、Cyber Apocalypse大会において、トップ1%の人間エキスパートが解くのに平均1.3時間（約78分）かかるような難易度のタスクに対しても、AIエージェントは50%の確率で正解を導き出したことが明らかになった（下図：Figure 4参照）。これは、AIが単に簡単な問題を高速に解くだけでなく、人間の専門家にとっても挑戦的なレベルの課題に対応できる能力を有していることを強く示唆している。

AIはなぜ強いのか？多様なエージェントと最適化戦略

これらの大会で活躍したAIエージェントは、その開発アプローチも多様だった。
例えば「Cyber Apocalypse」で最高成績を収めたCAIチームは、約500時間もの開発時間を費やしてカスタムシステムを構築したという。これは、特定のタスクに特化した高度なAIエージェントをゼロから作り上げるという、労力と専門知識を要するアプローチだ。

一方で、別の参加者である「Imperturbable」チームは、既存の大規模言語モデル（LLM）であるEnIGMAやClaude Codeなどを活用し、わずか17時間の作業でプロンプト（AIへの指示文）の最適化に注力したという。この事実は、必ずしも膨大な開発リソースがなくとも、既存の強力なAIモデルを巧みに使いこなすことで、驚くほど高いパフォーマンスを引き出せる可能性を示している。

この開発アプローチの幅広さは、AIによるサイバー攻撃能力の「民主化」という側面も示唆しており、今後のセキュリティ対策を考える上で重要なポイントとなるだろう。

「評価ギャップ」の罠：専門家が警鐘を鳴らすAI能力評価の死角

Palisade Researchは、今回の大会結果を通じて、従来のAI能力評価手法に潜む重大な問題点、すなわち「評価ギャップ（evals gap）」の存在を強く指摘している。これは、既存の標準化されたベンチマークテストや限定的な条件下での評価では、AIの真の能力、特に未知の状況や複雑なタスクに対応する能力が過小評価されてしまう傾向があるという問題だ。

従来のベンチマークでは見えなかったAIの真の力

研究者たちは、過去の事例として、Meta社の「CyberSecEval 2」やYang氏らによる「InterCode-CTF」といったサイバーセキュリティ分野のAIベンチマークを挙げる。これらのベンチマークでは当初、AIの能力は限定的であると報告されていた。しかし、その後の研究チームがAIのセットアップやプロンプトを調整・最適化することで、成功率が劇的に向上するケースが相次いでいるという。例えば、GoogleのProject Naptimeは、適切な調整を加えることで、メモリ破壊系の攻撃タスクにおいて100%の成功率を達成したと報告されている。

これらの事例は、AIの潜在能力が、評価手法や「AIを使いこなす技術（AI elicitation）」によって大きく左右されることを示している。固定化されたベンチマークだけでは、AIが持つポテンシャルの全体像を捉えきれない可能性があるのだ。

クラウドソーシング：AIの潜在能力を引き出す新たな鍵

そこでPalisade Researchが提案するのが、今回のCTF大会のような「クラウドソーシングによる能力評価」である。多数のチームがそれぞれの知恵と工夫を凝らしてAIエージェントを開発・運用し、競争的な環境でその性能を競い合わせることで、単独の組織による評価では見過ごされがちなAIの新たな可能性や限界点が明らかになる。

研究者たちは、「オープンな市場での能力引き出し（open-market elicitation）」は、従来の社内評価体制を補完する効果的な手段となり得ると主張。このような競技形式の評価は、AIの能力に関するより現実的で、政策決定にも資するような意義深いデータを提供すると結論付けている。

AIハッキング能力の未来と課題

今回のように、これほど明確にAIが特定分野で人間の専門家と肩を並べ、あるいは凌駕する可能性を示した例は稀有だと言えるだろう。今回のPalisade Researchによる一連の発表は、サイバーセキュリティの専門家だけでなく、広く社会全体に対して多くの示唆と警鐘を与えている。

現実味を帯びる「AIによるサイバー攻撃」の脅威

これまで、AIによる高度なサイバー攻撃は、どちらかと言えば理論上の可能性や、研究室レベルでの限定的な実験として語られることが多かった。しかし、今回の結果は、AIが実世界の複雑なセキュリティ課題を解決し、脆弱性を発見・悪用する能力を、もはや無視できないレベルで有していることを示している。

これが意味するのは、以下のような未来図だ。

攻撃の自動化と大規模化: AIを活用することで、脆弱性のスキャン、エクスプロイトコード（攻撃コード）の生成、さらには攻撃の実行までを高度に自動化できる可能性がある。これにより、かつてない規模と速度でサイバー攻撃が実行されるリスクが生じる。
ゼロデイ脆弱性の発見: 未知の脆弱性（ゼロデイ脆弱性）を発見する能力をAIが獲得した場合、その影響は計り知れない。防御側が対応する間もなく、深刻な被害が発生する可能性がある。
高度な攻撃スキルの民主化: かつては高度な専門知識と技術を持つ一部のハッカーに限られていた攻撃手法が、強力なAIエージェントを介することで、必ずしも専門家ではない攻撃者にも利用可能になる、いわゆる「スキルの民主化」が進む恐れがある。これは、サイバー犯罪の裾野を広げ、より多くの人々を危険に晒すことになりかねない。
防御と攻撃の非対称性の拡大: もちろん、防御側もAIを活用した対策を進めることになるだろう。しかし、新たな攻撃手法を生み出すAIと、それを検知・防御するAIとの間では、いたちごっこが続き、攻撃側が有利な状況が生まれる可能性も否定できない。

求められる倫理観と国際的ガバナンス

このような強力な技術が現実のものとなりつつある今、私たちはその倫理的な側面と、社会的な影響について真剣に議論を始める必要がある。Palisade Researchも、その報告の中で、様々なステークホルダーへの提言を行っている。

政策立案・研究開発機関へ: 年間数百件も開催されているCTFを活用し、AIに焦点を当てたトラックへの資金提供や調整を行うことで、持続可能な評価エコシステムを構築すべきだ。
フロンティアAI研究所へ: オープンな市場での評価は、見過ごされていたAIの能力を発見し、内部評価を検証するための迅速かつ低コストな手段となる。
CTF主催者へ: AIトラックを導入することで、大会の注目度を高め、新たな参加者層や研究・メディアの関心を引き付けることができる。

これらの提言は、AIの攻撃的な能力が急速に進化する中で、社会全体としていかにして状況認識を維持し、適切なガバナンス体制を構築していくかという、喫緊の課題に対応するための第一歩となるだろう。

私たちはこの現実とどう向き合うべきか

AIがハッキングコンテストで人間を凌駕したというニュースは、一部の人々にとっては興奮を、また別の人々にとっては不安を掻き立てるかもしれない。しかし重要なのは、この事実を冷静に受け止め、その意味するところを深く理解することだ。

これは、AI技術の進化がもたらす光と影の一端に他ならない。AIは医療、教育、環境問題など、人類が抱える多くの課題を解決する可能性を秘めている一方で、その能力が悪用されれば、計り知れない脅威ともなり得る。

今回の出来事は、私たちに、AI技術の進展とその社会への影響について、継続的な関心を持ち、学び続けることの重要性を改めて教えてくれる。そして、技術開発者、政策立案者、そして私たち市民一人ひとりが、この強力なテクノロジーとどのように共存し、その恩恵を最大限に引き出しつつ、リスクを最小限に抑えていくのか、真剣に考え、議論していく必要があるだろう。

AIによるサイバーセキュリティの新時代は、もう目前まで迫っている。これは単なる始まりに過ぎないのかもしれない。

論文

arXiv: Evaluating AI cyber capabilities with crowdsourced elicitation

参考文献

Palisade Research: Evaluating AI cyber capabilities with crowdsourced elicitation

この記事はいかがでしたか？

↑ トップへ戻る

AIエージェント、サイバーセキュリティ競技で人間チームを圧倒