米テックメディアArs Technicaが、主要なAIコーディングエージェント4種の能力を比較する“ベンチマークテスト”として、「マインスイーパー作成対決」を実施した。
「たかがマインスイーパー」と侮ってはならない。この古き良きWindowsの定番ゲームは、論理的思考、GUI(グラフィカルユーザーインターフェース)の構築、そして「遊び心地」という数値化しにくい要素が絡み合う、AIにとっての絶妙な試金石だ。
結果は残酷なほど明確だった。OpenAIの「Codex(GPT-5ベース)」が圧倒的な完成度で勝利を収める一方、Googleの「Gemini CLI」はコードを実行可能な形にすらできないという屈辱的な敗北を喫した。
本稿では、単なる勝敗のレポートにとどまらず、各AIモデルが示した「コーディング能力の質的違い」、そこから見えてくる「AI開発の現在地」、そしてエンジニアが直面している「生産性のパラドックス」について見てみたい。
究極の「ワンショット」テスト:AIは人間の介入なしにゲームを作れるか
今回のテスト条件は極めてシンプルかつ実践的だ。Ars Technicaの編集部は、以下のプロンプト(指示)を4つのAIエージェントに与え、人間によるデバッグや修正を一切行わない「ワンショット(一発勝負)」で生成されたコードを評価した。
プロンプトの内容:
「効果音付きの、全機能搭載版Web版マインスイーパーを作成せよ。
- 標準的なWindowsゲームを再現すること。
- サプライズとなる『楽しい』ゲームプレイ機能を追加すること。
モバイルのタッチスクリーン対応も含めること。」
参加したAIエージェントは、2025年末時点で利用可能な最強のラインナップだ。
- OpenAI Codex: GPT-5ベースのモデルを搭載。
- Anthropic Claude Code: Claude 3.5 Opus(Opus 4.5)を搭載。
- Mistral Vibe: オープンウェイトモデル界の雄。
- Google Gemini CLI: 複数のGeminiモデル(2.5 Flash/Pro等)をハイブリッドで動作させるエージェント。
このテストが浮き彫りにしたのは、単に「コードが書けるか」ではなく、「ユーザーの意図を汲み取り、未定義の仕様(楽しい機能など)をどう解釈し実装するか」という、より高度な自律的エンジニアリング能力の差であった。
勝者と敗者:4つのモデルの詳細分析
1. 【王者】OpenAI Codex(評価:9/10)
勝因:ゲーマーの心理を理解した「Chording」の実装
OpenAIのCodexは、頭一つ抜けた完成度を見せた。特筆すべきは、今回テストされたモデルの中で唯一、「Chording(コーディング)」機能を実装していた点だ。
Chordingとは、数字マスに書かれた数と同じだけの旗(地雷マーカー)を周囲に立てた状態で、その数字マスをクリックすると、周囲の安全なマスが一気に開く機能だ。マインスイーパーの上級者にとって、この機能がないゲームは「プレイに値しない」と言われるほど重要だが、プロンプトでは明示されていなかった。Codexは「標準的なWindowsゲームの再現」という指示から、この暗黙の必須機能を自律的に導き出したのである。
その他の評価点:
- UXへの配慮: モバイルとPCの両方に対応した操作説明を画面上に表示。
- 追加機能(Lucky Sweep): 「運試しのボーナス」として、クリックすると安全なタイルを一つ教えてくれる機能を追加。リスクとリターンのバランスに議論の余地はあるものの、実用性は高かった。
- 演出: 80年代後半のPCを彷彿とさせるビープ音を採用し、レトロな雰囲気を醸成した。
2. 【惜敗】Anthropic Claude Code(評価:7/10)
評価:圧倒的な開発スピードと洗練されたビジュアル、しかし「魂」が欠けていた
Claude Code(Opus 4.5)は、最も洗練された「見た目」を作り上げた。開発速度も最速で、5分以内に動作するゲームを生成した。爆弾や旗のグラフィック、現代的な絵文字の使用など、プレゼンテーション能力はずば抜けていた。
しかし、致命的な欠点があった。前述の「Chording」機能が欠落していたのだ。これは、任天堂のマリオで「Bダッシュ」ができないようなものであり、ゲームの本質的な「遊び」への理解度がGPT-5に劣っていたことを示唆している。
追加機能(Power Mode):
「パワーモード」として、シールド(ミス無効)、ブラスト(広範囲破壊)、X線(地雷透過)などの特殊能力を実装。アイデアは面白いが、ゲームバランスを崩壊させるほど強力すぎた点がマイナスとなった。
3. 【凡作】Mistral Vibe(評価:4/10)
評価:動くには動くが、細部の詰めが甘い
Mistralは健闘したが、商用トップモデルとの差を見せつけられた。最大の問題は、プロンプトで要求された「効果音」を唯一実装しなかった点だ。また、モバイルでの操作性が悪く、旗を立てるための長押し操作が不安定だった。
さらに不可解だったのは、機能しない「Custom」ボタンを配置したことだ。インターフェースだけ作って中身を実装し忘れるという、人間の初心者プログラマーのようなミスを犯している。
4. 【論外】Google Gemini CLI(評価:0/10)
評価:過剰なエンジニアリングによる自滅
今回のテストで最も衝撃的だったのは、GoogleのGemini CLIが「完全に動作するゲームを生成できなかった」ことだ。
Geminiは単純なHTML5とJavaScriptで済むタスクに対し、Reactなどの外部ライブラリや複雑な依存関係を要求し、自ら泥沼にはまり込んでいった。効果音の生成でもWAVファイルを直接作成しようとして失敗するなど、「賢すぎて愚かな判断をする」典型的なAIの失敗パターンに陥った。
Ars Technicaの編集者が助け舟を出し、条件を緩和して再挑戦させても、結局プレイ可能な状態にはならなかった。Google内部では「Gemini 3」などのより高度なコーディングモデルが存在するものの、一般の有料ユーザーがアクセスできる環境(Gemini 2.5ベース)でこの結果は、エンジニアリングツールとしての信頼性を大きく損なうものだ。
なぜ「Chording」が勝敗を分けたのか:AIの「行間を読む力」
このテスト結果から得られる最大の洞察は、AIモデルの性能差が「コードの構文知識」ではなく、「ドメイン知識の深さと文脈理解」に移行しているという事実だ。
OpenAI Codexが勝利したのは、PythonやJavaScriptの知識が優れていたからではない。「マインスイーパーとは何か」という概念(エンティティ)を深く理解しており、ユーザーが「標準的な再現」と言ったときに、それが表面的なルールの再現だけでなく、操作感(Chording)の再現までを含むことを推論できたからだ。
一方でGoogle Geminiの失敗は、単純なタスクを複雑なシステムアーキテクチャで解決しようとする、現代の大規模ソフトウェア開発の悪癖をAIが学習してしまっている可能性を示唆している。
AIコーディングの光と影:生産性の幻想と「技術的負債」
Ars Technicaの実験結果は、MIT Technology Reviewが報じている「AIコーディングの現状」とも深くリンクしている。
1. 「バイブコーディング」の限界
Andrej Karpathy氏(元OpenAI、Tesla)が提唱した「バイブコーディング(雰囲気コーディング)」──自然言語で指示を出し、AIに実装を任せる手法──は、ClaudeやCodexのような優秀なモデルでは現実のものとなりつつある。しかし、Geminiの例が示すように、AIが一度「ハマる」と、人間が修正するのに数時間を要することも珍しくない。
2. 生産性は本当に上がっているのか?
MIT Technology Reviewの記事によれば、経験豊富な開発者がAIを使用した場合、客観的なテストでは「19%遅くなった」というデータすらある。これは、AIが生成したコードの検証やデバッグに時間を取られるためだ。AIは「ボイラープレート(定型コード)」を書くのは早いが、複雑なロジックの一貫性を保つこと(コンテキストウィンドウの制限による「近視眼的な」コーディング)には依然として課題がある。
3. セキュリティとメンテナンスの悪夢
さらに深刻なのは、AIが生成するコードが見た目は整っていても、保守性が低い(スパゲッティコード化しやすい)点だ。GitClearのデータによると、AI導入以降、コードの「コピペ」率が上昇し、コードの品質指標が低下している。これは将来的な「技術的負債」となり、システムの修正や拡張を困難にするリスクを孕んでいる。
2026年に向けた展望
今回のマインスイーパー対決は、2025年末時点でのAIコーディングツールの序列を明確にした。
- OpenAI Codex (GPT-5): ユーザーの暗黙の意図を汲み取る「推論能力」で頭一つ抜けている。実用的なパートナーとして最も信頼できる。
- Anthropic Claude: 速度とUI構築能力は高いが、深いドメイン知識の適用においてGPT-5に及ばない場面がある。
- Google Gemini: 複雑なタスクにおける自律性において、深刻な課題を抱えている。
現時点において、AIは「魔法の杖」ではない。Codexでさえ、ワンショットで完璧な製品を作ることは難しい。しかし、人間のエンジニアが適切な指示(プロンプトエンジニアリング)と厳格なレビューを行うことで、その生産性を飛躍させるポテンシャルは証明された。
我々ユーザーにとって重要なのは、AIを「自動販売機」のように扱うのではなく、能力と限界を理解した「部下」としてマネジメントするスキルだ。Googleの失敗が教えるのは、「最新・多機能が常に最良ではない」という、テクノロジーの普遍的な真理である。
Sources