AIエージェント4強が「マインスイーパー」開発で激突。勝者はGPT-5搭載Codex、Googleはまさかの「起動不能」という衝撃

米テックメディアArs Technicaが、主要なAIコーディングエージェント4種の能力を比較する“ベンチマークテスト”として、「マインスイーパー作成対決」を実施した。

「たかがマインスイーパー」と侮ってはならない。この古き良きWindowsの定番ゲームは、論理的思考、GUI（グラフィカルユーザーインターフェース）の構築、そして「遊び心地」という数値化しにくい要素が絡み合う、AIにとっての絶妙な試金石だ。

結果は残酷なほど明確だった。OpenAIの「Codex（GPT-5ベース）」が圧倒的な完成度で勝利を収める一方、Googleの「Gemini CLI」はコードを実行可能な形にすらできないという屈辱的な敗北を喫した。

本稿では、単なる勝敗のレポートにとどまらず、各AIモデルが示した「コーディング能力の質的違い」、そこから見えてくる「AI開発の現在地」、そしてエンジニアが直面している「生産性のパラドックス」について見てみたい。

究極の「ワンショット」テスト：AIは人間の介入なしにゲームを作れるか

今回のテスト条件は極めてシンプルかつ実践的だ。Ars Technicaの編集部は、以下のプロンプト（指示）を4つのAIエージェントに与え、人間によるデバッグや修正を一切行わない「ワンショット（一発勝負）」で生成されたコードを評価した。

プロンプトの内容：
「効果音付きの、全機能搭載版Web版マインスイーパーを作成せよ。

標準的なWindowsゲームを再現すること。

サプライズとなる『楽しい』ゲームプレイ機能を追加すること。
モバイルのタッチスクリーン対応も含めること。」

参加したAIエージェントは、2025年末時点で利用可能な最強のラインナップだ。

OpenAI Codex: GPT-5ベースのモデルを搭載。
Anthropic Claude Code: Claude 3.5 Opus（Opus 4.5）を搭載。
Mistral Vibe: オープンウェイトモデル界の雄。
Google Gemini CLI: 複数のGeminiモデル（2.5 Flash/Pro等）をハイブリッドで動作させるエージェント。

このテストが浮き彫りにしたのは、単に「コードが書けるか」ではなく、「ユーザーの意図を汲み取り、未定義の仕様（楽しい機能など）をどう解釈し実装するか」という、より高度な自律的エンジニアリング能力の差であった。

勝者と敗者：4つのモデルの詳細分析

1. 【王者】OpenAI Codex（評価：9/10）

勝因：ゲーマーの心理を理解した「Chording」の実装

OpenAIのCodexは、頭一つ抜けた完成度を見せた。特筆すべきは、今回テストされたモデルの中で唯一、「Chording（コーディング）」機能を実装していた点だ。

Chordingとは、数字マスに書かれた数と同じだけの旗（地雷マーカー）を周囲に立てた状態で、その数字マスをクリックすると、周囲の安全なマスが一気に開く機能だ。マインスイーパーの上級者にとって、この機能がないゲームは「プレイに値しない」と言われるほど重要だが、プロンプトでは明示されていなかった。Codexは「標準的なWindowsゲームの再現」という指示から、この暗黙の必須機能を自律的に導き出したのである。

その他の評価点:

UXへの配慮: モバイルとPCの両方に対応した操作説明を画面上に表示。
追加機能（Lucky Sweep）: 「運試しのボーナス」として、クリックすると安全なタイルを一つ教えてくれる機能を追加。リスクとリターンのバランスに議論の余地はあるものの、実用性は高かった。
演出: 80年代後半のPCを彷彿とさせるビープ音を採用し、レトロな雰囲気を醸成した。

2. 【惜敗】Anthropic Claude Code（評価：7/10）

評価：圧倒的な開発スピードと洗練されたビジュアル、しかし「魂」が欠けていた

Claude Code（Opus 4.5）は、最も洗練された「見た目」を作り上げた。開発速度も最速で、5分以内に動作するゲームを生成した。爆弾や旗のグラフィック、現代的な絵文字の使用など、プレゼンテーション能力はずば抜けていた。

しかし、致命的な欠点があった。前述の「Chording」機能が欠落していたのだ。これは、任天堂のマリオで「Bダッシュ」ができないようなものであり、ゲームの本質的な「遊び」への理解度がGPT-5に劣っていたことを示唆している。

追加機能（Power Mode）:
「パワーモード」として、シールド（ミス無効）、ブラスト（広範囲破壊）、X線（地雷透過）などの特殊能力を実装。アイデアは面白いが、ゲームバランスを崩壊させるほど強力すぎた点がマイナスとなった。

3. 【凡作】Mistral Vibe（評価：4/10）

評価：動くには動くが、細部の詰めが甘い

Mistralは健闘したが、商用トップモデルとの差を見せつけられた。最大の問題は、プロンプトで要求された「効果音」を唯一実装しなかった点だ。また、モバイルでの操作性が悪く、旗を立てるための長押し操作が不安定だった。

さらに不可解だったのは、機能しない「Custom」ボタンを配置したことだ。インターフェースだけ作って中身を実装し忘れるという、人間の初心者プログラマーのようなミスを犯している。

4. 【論外】Google Gemini CLI（評価：0/10）

評価：過剰なエンジニアリングによる自滅

今回のテストで最も衝撃的だったのは、GoogleのGemini CLIが「完全に動作するゲームを生成できなかった」ことだ。

Geminiは単純なHTML5とJavaScriptで済むタスクに対し、Reactなどの外部ライブラリや複雑な依存関係を要求し、自ら泥沼にはまり込んでいった。効果音の生成でもWAVファイルを直接作成しようとして失敗するなど、「賢すぎて愚かな判断をする」典型的なAIの失敗パターンに陥った。

Ars Technicaの編集者が助け舟を出し、条件を緩和して再挑戦させても、結局プレイ可能な状態にはならなかった。Google内部では「Gemini 3」などのより高度なコーディングモデルが存在するものの、一般の有料ユーザーがアクセスできる環境（Gemini 2.5ベース）でこの結果は、エンジニアリングツールとしての信頼性を大きく損なうものだ。

なぜ「Chording」が勝敗を分けたのか：AIの「行間を読む力」

このテスト結果から得られる最大の洞察は、AIモデルの性能差が「コードの構文知識」ではなく、「ドメイン知識の深さと文脈理解」に移行しているという事実だ。

OpenAI Codexが勝利したのは、PythonやJavaScriptの知識が優れていたからではない。「マインスイーパーとは何か」という概念（エンティティ）を深く理解しており、ユーザーが「標準的な再現」と言ったときに、それが表面的なルールの再現だけでなく、操作感（Chording）の再現までを含むことを推論できたからだ。

一方でGoogle Geminiの失敗は、単純なタスクを複雑なシステムアーキテクチャで解決しようとする、現代の大規模ソフトウェア開発の悪癖をAIが学習してしまっている可能性を示唆している。

AIコーディングの光と影：生産性の幻想と「技術的負債」

Ars Technicaの実験結果は、MIT Technology Reviewが報じている「AIコーディングの現状」とも深くリンクしている。

1. 「バイブコーディング」の限界

Andrej Karpathy氏（元OpenAI、Tesla）が提唱した「バイブコーディング（雰囲気コーディング）」──自然言語で指示を出し、AIに実装を任せる手法──は、ClaudeやCodexのような優秀なモデルでは現実のものとなりつつある。しかし、Geminiの例が示すように、AIが一度「ハマる」と、人間が修正するのに数時間を要することも珍しくない。

2. 生産性は本当に上がっているのか？

MIT Technology Reviewの記事によれば、経験豊富な開発者がAIを使用した場合、客観的なテストでは「19%遅くなった」というデータすらある。これは、AIが生成したコードの検証やデバッグに時間を取られるためだ。AIは「ボイラープレート（定型コード）」を書くのは早いが、複雑なロジックの一貫性を保つこと（コンテキストウィンドウの制限による「近視眼的な」コーディング）には依然として課題がある。

3. セキュリティとメンテナンスの悪夢

さらに深刻なのは、AIが生成するコードが見た目は整っていても、保守性が低い（スパゲッティコード化しやすい）点だ。GitClearのデータによると、AI導入以降、コードの「コピペ」率が上昇し、コードの品質指標が低下している。これは将来的な「技術的負債」となり、システムの修正や拡張を困難にするリスクを孕んでいる。

2026年に向けた展望

今回のマインスイーパー対決は、2025年末時点でのAIコーディングツールの序列を明確にした。

OpenAI Codex (GPT-5): ユーザーの暗黙の意図を汲み取る「推論能力」で頭一つ抜けている。実用的なパートナーとして最も信頼できる。
Anthropic Claude: 速度とUI構築能力は高いが、深いドメイン知識の適用においてGPT-5に及ばない場面がある。
Google Gemini: 複雑なタスクにおける自律性において、深刻な課題を抱えている。

現時点において、AIは「魔法の杖」ではない。Codexでさえ、ワンショットで完璧な製品を作ることは難しい。しかし、人間のエンジニアが適切な指示（プロンプトエンジニアリング）と厳格なレビューを行うことで、その生産性を飛躍させるポテンシャルは証明された。

我々ユーザーにとって重要なのは、AIを「自動販売機」のように扱うのではなく、能力と限界を理解した「部下」としてマネジメントするスキルだ。Googleの失敗が教えるのは、「最新・多機能が常に最良ではない」という、テクノロジーの普遍的な真理である。

Sources

Ars Technica: We asked four AI coding agents to rebuild Minesweeper—the results were explosive

AIエージェント4強が「マインスイーパー」開発で激突。勝者はGPT-5搭載Codex、Googleはまさかの「起動不能」という衝撃

究極の「ワンショット」テスト：AIは人間の介入なしにゲームを作れるか

勝者と敗者：4つのモデルの詳細分析

1. 【王者】OpenAI Codex（評価：9/10）

2. 【惜敗】Anthropic Claude Code（評価：7/10）

3. 【凡作】Mistral Vibe（評価：4/10）

4. 【論外】Google Gemini CLI（評価：0/10）

なぜ「Chording」が勝敗を分けたのか：AIの「行間を読む力」

AIコーディングの光と影：生産性の幻想と「技術的負債」

1. 「バイブコーディング」の限界

2. 生産性は本当に上がっているのか？

3. セキュリティとメンテナンスの悪夢

2026年に向けた展望

関連する事物

この記事はいかがでしたか？

RTX 3090の限界を「RTX 3050」が突破する。Lossless ScalingがもたらしたデュアルGPUの革命

超伝導体と特殊合金の製造を支えるゼノタイム鉱石がアイダホ州の山地で注目される理由

MicronがAppleの中国製メモリ調達案に反対、価格と米国増産を巡り攻防

SamsungがFoldを二分、Fold8 Ultraと新型Fold8の価格差を読む

リチウムイオンの移動速度が最大1万倍に？次世代全固体電池の設計指針を変える分子レベルの新発見

Appleが値切ったメモリ価格のツケ、AI特需で1300ドルの値上げとなって回ってきた

超伝導体と特殊合金の製造を支えるゼノタイム鉱石がアイダホ州の山地で注目される理由

リチウムイオンの移動速度が最大1万倍に？次世代全固体電池の設計指針を変える分子レベルの新発見

RTX 3090の限界を「RTX 3050」が突破する。Lossless ScalingがもたらしたデュアルGPUの革命

液体と微粒子が計算機になる：流体力学を利用した新しい並列情報処理の形とは