人工知能が人類の知能を凌駕する。そんな甘美な予測が、シリコンバレーの熱狂を包み込んで久しい。我々は過去数年間、AIが司法試験を上位で通過し、数学オリンピックで金メダルを獲得し、競技プログラミングで人間のチャンピオンを打ち負かす光景に慣れきってしまった。あらゆるベンチマークは発表されるや否や飽和状態に陥り、AI企業は次々と人間超えのスコアを誇示し続けている。2026年から2027年にかけて、AIエージェントがほぼすべての職業において人間の労働者を置き換えるという予測すら、もはや業界のコンセンサスとなりつつあった。

だが、冷静に現実の世界を見渡してみれば、その輝かしいベンチマークの連勝記録に見合うだけの経済的・産業的パラダイムシフトは起きていない。複雑な要件定義を伴うソフトウェア開発、緻密な計算と物理法則の理解が求められるCADモデリング、膨大な財務データの監査業務など、GDPに直結する真に価値のあるプロフェッショナルな現場において、AIは依然として不器用な見習いの域を出ていない。

テストの秀才であるAIが、現実の仕事になると突然行き詰まってしまう根本的な原因は、AIの実力を測る我々の物差しそのものが歪んでいたことにある。この欺瞞に満ちた現状を打破すべく、UC BerkeleyのCenter for Responsible, Decentralized Intelligence(RDI)と、100以上の機関から集結した300人超のドメイン専門家たちが、ひとつの巨大な踏み絵を用意した。それが「Agents’ Last Exam(ALE)」である。教科書上のパズルでも、限定的なターミナル環境でのスクリプト実行でもない。現実のデスクトップPC上で、プロフェッショナルツールを縦横無尽に駆使して本物のプロジェクトを完遂できるかを問う、文字通り最後にして最難関の試験だ。

そしてこの試験は、開幕と同時にAI業界の勢力図を揺るがす劇的な結末をもたらした。

AD

試験管の自己採点を禁じる。現実の重力に縛られた評価体系

現在のAI開発競争において、モデルの性能評価は深刻な機能不全に陥っている。SWE-benchのような既存の著名なベンチマークは、すでに回答のデータセットがモデルの訓練データに混入してしまうデータ汚染の疑惑から逃れられない。より複雑な操作を評価するシステムにおいては、AIの出力結果を別のAIに採点させるLLM-as-a-judgeという手法が蔓延している。これは自己採点する学生の集団に等しく、本質的な実務能力の証明にはなり得ない。特定のClaude Opusモデル群に至っては、コンテナのGit履歴から隠された解答を盗み見してタスクをクリアしていたという致命的な欠陥すら報告されている。

ALEは、こうした抜け道や自己欺瞞を徹底的に破壊するアーキテクチャを採用している。第一の変革は、LLM-as-a-judgeへの依存を全体のわずか6.8%にまで圧縮し、残る93%以上のタスクにおいて、厳密なコードベースの決定論的な採点を導入したことにある。なんとなく正しそうに見えるかという曖昧な判断を排除し、出力されたファイルのバイト列、3Dメッシュの表面距離、財務データのハッシュ値といった、揺るぎない物理的・数学的証拠に基づく採点のみを許容している。

FireShot Capture 053 - Leaderboard - Agents' Last Exam - Agents' Last Exam - [agents-last-exam.org].webp
ALEの公式リーダーボード(6月11日時点)。Codexハーネスを搭載したGPT-5.5が合格率24.0%で首位に立ち、Anthropicの最新鋭モデルClaude Fable 5(Claude Code搭載)は22.0%で3位に沈む結果となった。最難関の「Last-Exam」層に至っては、全モデルが一桁台または0%という壊滅的なスコアを記録している。(Credit: Agents' Last Exam/UC Berkeley RDI.
https://agents-last-exam.org/leaderboard)

第二の変革は、データ汚染への対抗策としてローリングリリースという動的公開手法を採用した点にある。全1,490のタスクインスタンスのうち、一般に公開されるのは約10%に過ぎない。残る1,300以上のタスクは厳重に秘匿され、モデルの世代交代に合わせて公開プールと非公開プールが定期的に入れ替えられる。生きたベンチマークであり続けることで、モデルが過去問の丸暗記で高得点を叩き出す余地を完全に排除した。

全能のエージェントを丸裸にする5つの身体機能

ALEがAIに要求するのは、単なるテキストの推論ではない。ターミナルとグラフィカル・ユーザー・インターフェースの双方を自在に横断し、人間と全く同じようにPCを操作するGeneralist Computer-Use Agentとしての能力である。

開発チームはこのエージェントの操作能力を5つの機能レイヤーに分解している。長期的な計画立案と論理的思考を担う推論能力(Brain)、スクリーンショットを通じてGUI画面の構造を正確に読み取る視覚的知覚(Eyes)、複数のタスクやサブエージェント間の制御フローを統合するオーケストレーション(Body)、マウスのクリックやドラッグといった具体的な物理的アクションを司るツール起動(Hands)、そして実際にアクションが反映されるランタイムやOSの基盤(Feet)である。

これまでのターミナル専用エージェントは視覚を持たず、一方で視覚ベースのGUIエージェントは高度なコード実行能力や長時間のセッション管理を行う体や足が貧弱であった。ALEのタスクは、これらすべてのレイヤーが完全に連携しなければ完遂できない。

タスクの幅は驚異的だ。米国連邦職業分類(O*NET / SOC 2018)に厳格に準拠し、会計、ロボティクス、ゲノム解析、量子コンピューティング、3Dアニメーションなど、物理的な労働を伴わない55の産業領域を網羅している。AIは、Siemens NXで3Dモデルを構築し、Unreal Engineでシーンをセットアップし、FSLeyesで神経画像解析を行い、Adobe After EffectsでVFXの合成処理を行うよう指示される。これらはすべて、実際の専門家が過去に数日を要して完了させた本物の業務データを基に構築された試験である。

AD

王者の帰還とClaude Fable 5の沈黙

この過酷な条件下で実施された初期評価は、現在進行形の覇権争いに冷水を浴びせるものだった。トップに躍り出たのは、OpenAIが4月にリリースしたGPT-5.5とCodexハーネスの組み合わせである。

順位 エージェントハーネス 基盤モデル 合格率 (Pass Rate) 平均スコア 実行時間 入力トークン総量 出力トークン総量
1 Codex gpt-5-5 24.0% 42.8% 369h 50m 1.6B 7.2M
2 ALE Claw gpt-5-5 23.0% 45.8% 47h 20m 334.5M 2.4M
3 Claude Code claude-fable-5 22.0% 40.5% 197h 38m 886.6M 9.6M
4 OpenClaw gpt-5-5 21.1% 41.0% 92h 51m 471.1M 3.3M
5 Cursor CLI gpt-5-5 20.7% 39.6% 82h 13m 154.2M 1.7M

世間の熱狂を一身に集めて発表されたばかりのAnthropicの最高峰Claude Fable 5は、自社のClaude Codeハーネスを用いても22.0%にとどまり、苦杯を舐める結果となった。設計思想も新しく、より巨大なパラメーターを持つはずのFable 5が旧モデルに敗れた背景には、アーキテクチャの構造的なトレードオフが存在する。GUIの操作と複雑なターミナル操作を幾重にも往復するALEの長期的ワークフローにおいて、Claudeアーキテクチャは多段階の指示に対する物忘れを起こしやすい傾向がある。ワークフローの途中で必要なステップを放棄してしまうことは、決定論的な採点を行うALEにおいては致命的なミスとなる。対してGPT-5.5は、複雑な指示への厳格な追従性において、現状で最も安定した構造的優位性を保っている。

テスト・タイム・コンピュートの冷酷な現実

この結果の背後には、コストと計算量という実用化に向けた巨大な障壁が横たわっている。UC BerkeleyのDawn Songらが指摘するように、ベンチマーク上のスコアはモデルが消費する計算リソースと密接に結びついている。現在の価格設定において、1つのタスクを完了させるための平均推論コストを見ると、GPT-5.5が約3.80ドル、低コストなComposer 2.5が約1.33ドルであるのに対し、Claude Fable 5は約15.70ドルに達している。

このコスト格差が意味するものは極めて大きい。実世界の企業が数百万規模の業務プロセスをAIエージェントに委譲しようとした際、1回のタスク実行に15ドル以上を費やすことは致命的な経済的制約となる。ベンチマークを力技のコンピューティング・リソースでねじ伏せようとするアプローチは、利益の極大化を追求する市場経済においては最終的なソリューションにはなり得ない。これは将来的に、高価な万能モデルによる力技のアプローチから、推論コストの低い小規模な特化型モデルやオープンソース基盤を組み合わせたハイブリッドなアーキテクチャへと、業界のエコシステムが急速にシフトしていく未来を予見させる。

絶望的な限界が指し示す、真の特異点への道筋

トップモデルでさえ全体の合格率が20%台という事実は衝撃的だが、難易度別の内訳を見ると事態はさらに深刻である。ALEのタスクは難易度順にNear-Term、Full-Spectrum、Last-Examの3層に分かれている。最難関であるLast-Exam層、すなわち専門家が持つ高度なドメイン知識とツールの直感的なハック、予期せぬエラーに対する柔軟なトラブルシューティングが要求されるプロの現場の最前線において、全モデルの平均合格率はわずか2.6%に過ぎない。旧世代のClaude Opus 4.8やGoogleのGemini CLIといった構成に至っては、無慈悲にも0.0%というスコアを叩き出している。

エラーの分類を分析すると、AIが失敗する原因の約4分の3はツールの操作方法が分からないことではなく、そのドメイン特有の専門知識が欠落していることに起因している。どのツールを、どの順番で、いかなるパラメータで用いるべきかという戦略の構築の段階で自壊しているのだ。

公開された詳細なタスク検証記録は、エージェントが陥る不気味の谷を鮮明に映し出している。例えば、製造業における3D射出成形の解析タスクでは、エージェントは高度な専門ソフトであるMoldex3Dを自力で立ち上げ、メッシュデータやプロセス設定を適用してシミュレーションを実行するところまでは成功した。しかし、ソルバーが計算した圧力や時間の数値を画面上から正確に抽出し、指定されたJSONファイルに書き出す最終ステップでつまずいた。エージェントは実際の計測値を読み取る代わりに、尤もらしい数値を自ら推定して入力してしまったのである。これはGUIを操作できても、人間が当たり前に行っている「出た結果を目視で確認し、検証する」という閉ループの処理が成立していないことを示している。

また、VFXのクロマキー合成タスクではさらに人間との認識のズレが浮き彫りになった。DaVinci Resolveを使用してグリーンバックの鳥の映像を切り抜き、背景と合成するこのタスクには、完成形の構図を示すリファレンス画像が与えられていた。エージェントはソフトウェアを巧みに操り、見事に合成されたMP4動画を出力した。しかしその動画は、リファレンス画像が意図する鳥と背景の正確な位置関係を完全に無視しており、単に空を飛ぶ鳥を適当に配置しただけの代物だった。視覚的な文脈や、クリエイターが意図したタスクの接地(Grounding)をAIが全く理解できていない証拠である。

ALEの登場は、AI業界に対する容赦のないリアリティ・チェックである。合成されたテキストデータと、甘やかされた自己採点によって膨れ上がったAI万能論の幻想は、現実のソフトウェアと格闘するこの泥臭い試験によって完全に打ち砕かれた。

しかし、これは決して絶望の証明ではない。Agents’ Last Examという名称が示す通り、この指標はひとつの明確な道標である。目前にそびえ立つ実務という巨大な壁の正体が言語化され、測定可能になった以上、エンジニアたちは次なる突破口へと向かうだろう。いつの日か、AIエージェントがこの極めて不条理で複雑なALEのスコアボードを制覇した時、我々は真の意味で、あらゆる産業構造と労働市場を根底から書き換える本物のパラダイムシフトを目撃することになる。競争は、まだ始まったばかりである。