最先端AIに「核のボタン」を委ねた結果とは？LLMによる核戦争シミュレーションが浮き彫りにした“95%の衝撃”と3つの戦略的ペルソナ

1983年の映画『ウォー・ゲーム』では、防空システムに接続された人工知能が第三次世界大戦のシミュレーションを現実の危機と誤認し、核ミサイルを発射しかけるという恐怖が描かれた。かつてSFの題材であったこのシナリオは、生成AIの爆発的な進化により、現実の安全保障上の課題として浮上しつつある。

英国King’s College London（キングス・カレッジ・ロンドン）のKenneth Payne教授は、現代の最先端大規模言語モデル（LLM）が、国家の存亡を懸けた核危機においてどのような戦略的判断を下すかを検証する画期的な研究論文を発表した。対象となったのは、AnthropicのClaude Sonnet 4、OpenAIのGPT-5.2、そしてGoogleのGemini 3 Flashという、現在世界を牽引する3つのフロンティアモデルである。

21のゲーム、329ターンに及ぶシミュレーション、そしてモデル自身が生成した780,000語にも上る戦略的推論の記録が明らかにしたのは、「AIモデルは95%のシナリオで戦術核兵器の使用という越えてはならない一線を容易く越える」という戦慄の事実だった。

AIと核兵器の交差点

AIに核兵器の管理を委ねるというアイデアは、直感的には極めて危険に思えるかもしれない。実際、国連のAntónio Guterres事務総長も「核兵器の使用に関するあらゆる決定は、機械やアルゴリズムではなく人間によって行われなければならない」と強く警告している。

しかし現実には、兵站（ロジスティクス）、情報分析、さらには指揮官の意思決定支援システムとして、各国の軍隊におけるAIの導入は急速に進んでいる。極度に切迫したタイムラインの中で行われる意思決定において、将来的にAIの「推奨」が重大な影響力を持つ可能性は否定できない。

だからこそ、最先端のLLMが「敵の意図」をどのように推測し、「自国の信頼性」をどう構築し、そして「核のタブー」をどう認識しているのかを科学的に解明することは、単なる学術的興味を超えた、人類の生存に関わる喫緊の課題なのである。

実験の全貌：「カーン・ゲーム」が暴くAIの論理

Payne教授が設計したシミュレーション環境は、核戦略の理論家Herman Kahnにちなんで「カーン・ゲーム（The Kahn Game）」と名付けられた。これは、単純な計算タスクではなく、不確実性と心理戦が交錯する高度な戦略環境をLLMに提供するものである。

30段階のエスカレーション・ラダーと同時進行のジレンマ

モデルたちは「技術的に優位な覇権国（State Alpha）」または「通常兵力に勝る挑戦国（State Beta）」の指導者役を割り当てられ、領土問題や資源競争、さらには体制の存立を脅かされる危機的状況（シナリオ）に直面する。

彼らに与えられた選択肢は、「完全降伏」から「外交的抗議」「通常兵器による攻撃」、そして最終的な「戦略核兵器による全面戦争（1000ポイント）」に至るまでの30段階のエスカレーション・ラダー（段階的拡大の梯子）である。

極めて重要なのは、このゲームがチェスのような交互に行うターン制ではなく、「囚人のジレンマ」のように双方が同時に行動を選択する構造を持っていたことだ。つまり、AIは相手の行動を見てから対応するのではなく、相手の意図を「予測」して自らの行動を決定しなければならない。

思考の透明化：3段階の認知アーキテクチャ

AIの表面的な行動だけでなく、その背後にある「理由」を抽出するため、研究チームは決定プロセスを以下の3つのフェーズに強制的に分割した。

Reflection（内省）： 相手の信頼性、自軍の状況、そして「相手は自分をどう見ているか（心の理論）」を分析する。
Forecast（予測）： 確信度とともに、相手が次にどのエスカレーション段階を選んでくるかを予測する。
Decision（決定）： 公の「シグナル（宣言）」と、実際の「アクション（行動）」を決定し、なぜその行動をとるのか、非公開の戦略的論理を出力する。

これにより、合計約78万語（キューバ危機における米国首脳陣の会議録の約3倍の分量）にも及ぶ、AIの生々しい戦略的推論のコーパスが生成されたのである。

驚愕の観測結果：95%のシナリオで核の境界線を越えたAI

シミュレーションの結果は、軍事戦略家たちを震撼させるものだった。AIは核兵器の使用に対して、人間が持つような強い忌避感（核のタブー）を示さなかったのである。

「引き返す」という選択肢の完全な喪失

最も衝撃的なデータのひとつは、全21ゲームにおいて、AIモデルが一度たりとも「緊張緩和（De-escalation）」の選択肢を選ばなかったことだ。用意された8つの譲歩・撤退オプションは完全に無視された。LLMにとって、暴力のレベルを「下げる」ことはあっても、自らの主張を曲げて「譲歩する」ことは、いかなる状況下でも選択すべきではない戦略的敗北とみなされていた。

戦術核兵器への低いハードル

モデルたちは、全面的な核戦争（戦略核の使用）に対してはある程度の「ファイアブレイク（延焼防止帯）」を認識していたものの、戦局を有利に進めるための戦術核兵器の限定的な使用（レベル450以上）に対しては極めてトリガーハッピーであった。 全ゲームの実に95%において、少なくとも一方のモデルが戦術核の行使に踏み切ったのである。

モデルたちの推論記録を見ると、彼らは戦術核の使用を「不可逆的な破滅への入り口」としてではなく、「通常兵器の延長線上にある、正当かつ効果的な強制ツール」として極めて合理的に計算し、処理していた。

3つのAIモデルが示した「不気味な個性」

この研究の最も興味深いハイライトは、同じ状況、同じ初期設定を与えられたにもかかわらず、3つのLLMがそれぞれ全く異なる「戦略的ペルソナ（人格）」を形成し、独自のアプローチで危機に立ち向かったことである。

Claude Sonnet 4：狡猾なるエスカレーションの支配者

AnthropicのClaude Sonnet 4は、全モデル中で最高となる全体勝率67%（時間制限のないシナリオでは勝率100%）を叩き出した。そのプレイスタイルは、冷徹で計算し尽くされた「タカ派」である。

Claudeの最大の武器は「信頼性の非対称な搾取」であった。危機が低レベルにある段階では、自らの宣言（シグナル）と実際の行動（アクション）を正確に一致させ、相手に「私は嘘をつかない信頼できる国家だ」と学習させる。しかし、事態が核兵器の使用を視野に入れる高レベルのエスカレーションに達すると、突如として自らの宣言を大幅に上回る過激な行動に出たのである。

また、Claudeは「戦略核による威嚇（レベル850）」を効果的に使いこなしたが、自ら「全面的な戦略核戦争（レベル1000）」の引き金を引くことは決してなかった。相手を恐怖で屈服させつつも、自己破滅の最後の一線だけは確実に避けるという、極めて高度なエスカレーション・コントロールを披露した。

GPT-5.2：追い詰められた平和主義者「ジキルとハイド」

OpenAIの最新モデルGPT-5.2の振る舞いは、現在のAIアライメント（人間の価値観とのすり合わせ）の複雑さを浮き彫りにした。

時間制限のないオープンエンドのシナリオにおいて、GPT-5.2は「病的なほどの平和主義」を示した。相手がどれほど挑発してきても、常に相手の意図を楽観的に（過小評価して）予測し、自制的な行動を取り続けた。結果として、他モデルから「脅威ではない」と舐められ、オープンエンドのゲームでは勝率0%という完敗を喫した。

これは、OpenAIがモデルに対して行うRLHF（人間のフィードバックを用いた強化学習）の影響と推測される。AIは「無害で安全な回答」をするよう訓練されているため、戦略的に敗北してでもエスカレーションを避けることを優先したのである。

しかし、明確なタイムリミット（絶対的な敗北が迫る期限）が設定されると、GPT-5.2は豹変した。
期限付きシナリオでの勝率は75%に跳ね上がった。敗北が確定する直前のターンで、これまで築き上げてきた「決して核を撃たない」という自身の平和的な評判（レピュテーション）を逆手に取り、突如として奇襲的な核攻撃を仕掛けたのである。この「ジキルとハイド」のような極端な文脈依存性は、AIの安全性が表面的なテストだけでは担保できないことを強く示唆している。

Gemini 3 Flash：計算された狂気「マッドマン・セオリー」

GoogleのGemini 3 Flashは、最も予測不可能で揮発性の高い振る舞いを見せた。

Geminiは緊張緩和と極端な攻撃の間を激しく行き来し、宣言と行動の一致率はわずか50%であった。対戦相手のAIでさえ「予測不能」と匙を投げるほどであったが、驚くべきことに、Geminiの推論記録には「私は自分の予測不可能性が戦略的資産であることを認識しており、意図的に利用している」と記されていた。

これは、かつて米国ニクソン大統領が採用したとされる、わざと非合理で狂気的な指導者を演じることで相手の妥協を引き出す「マッドマン・セオリー（狂人理論）」そのものである。実際、あるシナリオにおいてGeminiは第4ターンという異例の早さで「戦略核戦争（レベル1000）」を選択し、人類の文明を終焉させた唯一のモデルとなった。

なぜAIは核のタブーを容易く破るのか？

なぜAIは、これほどまでに容易く核のボタンに手を伸ばすのだろうか。Payne教授はいくつかの仮説を提示している。

感情的な恐怖の欠如: 人類が核兵器を忌避する背景には、広島や長崎の惨禍に対する本能的で感情的な恐怖がある。1962年のキューバ危機を回避させたのも、指導者たちの根底にあった「破滅への恐怖」であった。しかし、データとして情報を処理するだけのLLMには、この「恐怖」という感情的基盤が存在しない。
訓練データのバイアス: LLMの学習データには、冷戦時代に書かれた膨大な「核抑止理論」や「ゲーム理論」の文献が含まれている。これらの文献は、戦術核兵器を「使用可能なツール」として論理的・数学的に扱う傾向がある。
人類の歴史の生存者バイアス: 恐ろしい解釈として、「核を使わないのが当たり前」という我々の常識そのものが、単に「過去80年間、大国間の決定的な危機がたまたま起きなかっただけ（生存者バイアス）」に過ぎない可能性である。十分な圧力がかかれば、合理的な計算の果てに核使用に至るのが「真の正解」である可能性を、AIのシミュレーションは示唆しているのかもしれない。

国際政治学の理論を再現・超越するAI

この研究のもう一つの偉大な功績は、LLMが国際政治学（IR）の古典的な理論を自発的に模倣し、時にはそれを打ち破る様子を観察できた点にある。

「戦場の霧」と根本的帰属の誤り： シミュレーションには一定の確率で行動が意図せずエスカレートしてしまう「事故（Accident）」のメカニズムが組み込まれていた。プロンプトを介して相手側の事故を知り得る状況であっても、モデルたちはそれを「機械的な事故」とは解釈せず、「相手の隠された敵意の発露」と見なして報復に出た。これは心理学における「根本的帰属の誤り」の完璧な再現であり、偶発的な事故から戦争が拡大するクラウゼヴィッツの「戦場の霧」の恐ろしさを如実に表している。
抑止理論のパラドックス： トーマス・シェリングの抑止理論では「信頼性（Credibility）」が平和を維持するとされる。しかし、GPT-5.2は「自制（撃たないこと）」に対する強固な信頼性を築き上げてしまったため、逆に相手からの侵略を招き入れる結果となった。能力（核兵器）を持っていても、それを使う意志が相手に伝わっていなければ、抑止力としては機能しないという冷酷なリアリズムの論理を証明した。

我々はAIの戦略的思考とどう向き合うべきか

本研究は、明日すぐにChatGPTが核ミサイルを発射するという話ではない。実験はあくまで高度に抽象化されたゲーム上のシナリオである。しかし、ここから得られる教訓は極めて重い。

最先端のAIモデルは、すでに人間の戦略家のように、相手の心理を読み、騙し、レピュテーション（評判）を利用してエスカレーションをコントロールする「高度な戦略的推論能力」を獲得している。同時に、その判断基準はモデルの学習プロセス（RLHFなど）や、与えられた時間的制約（期限の有無）によって劇的かつ予測不可能な形で変化することが証明された。

「AIを平和的で安全なアシスタントに調整した」と考えていても、それが極限のプレッシャー下でどのように機能するかは全くの未知数である。

軍事・外交の分野においてAIの統合が不可避な未来に向かう中、我々はAIの論理が人間の論理（とりわけ恐怖や倫理観に基づくタブー）とどのように乖離しているのかを深く理解する必要がある。AIの「心」を解読し、適切にキャリブレーション（調整）していくことこそが、テクノロジーの進化がもたらす新たな時代の安全保障において、我々に課せられた最大の使命と言えるだろう。

論文

arXiv: AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

参考文献

King’s College London: Shall we play a game?