AIエージェントへの期待はかつてなく高い。コードを書き、メールに返信し、ウェブを検索して情報をまとめる——こうした「短距離走」では最新モデルが驚くほどの能力を見せている。だが、企業経営のように数百日にわたって意思決定を積み重ねなければならない「長距離走」でも同じことが言えるのか。
プリンストン大学のHaozhe Chen、Karthik Narasimhan、Zhuang Liuの研究チームは2026年6月、その問いに正面から取り組んだベンチマーク「CEO-Bench」を発表した。結果は予想外に厳しいものだった。テストした14モデルのうち、スタート時の資金すら超えられたのは2〜3モデルのみ。残りの大多数は、LLMを一切使わないシンプルなルールベースプログラムにさえ敗北した。
500日間の経営シミュレーションとはどんなテストか
CEO-Benchは、架空のサブスクリプション型ソフトウェアスタートアップ「NovaMind」をAIエージェントが500日間にわたってCEOとして経営するベンチマークだ。開始資金は100万ドル(約1億5000万円)で、残高がゼロ以下になった時点で即倒産——シミュレーションはそこで終了する。
エージェントは34種類のツールと19テーブルのビジネスデータベースに対してPythonコードやSQLクエリを自分で書きながら操作する。データを読んで仮説を立て、コードを書いてビジネスを動かし、結果を見て次の判断を下す——このループを500日間自律的に繰り返す必要がある。人間のCEOが面する判断プロセスを、プログラム上で近似したシステムだ。
顧客は26の異なるセグメントに分かれており、それぞれ価格感度や製品への嗜好が異なる。今日打った価格改定が顧客離脱として現れるのは数週間後だ。競合が品質を改善しても、その影響はじわじわと遅れて数字に表れる。従来のベンチマークが「この質問への答えは?」と即時反応を測るのに対し、CEO-Benchは「この判断が正しかったか」が数十日後にしかわからない環境を意図的に設計している。
研究チームが強調するのが「非定常環境」という特性だ。市場は常に変化し、同じ戦略が100日間有効であり続けることはない。変化を検知して戦略を修正する適応能力が継続的に問われる。加えて、エージェントが直接観察できない「隠れた情報」も多い——顧客が本当は何を重視しているかは、交渉履歴などから推論するしかない。
14モデル中11が倒産、生き残りはわずか3つ
論文が2026年6月に公開した時点(arxiv v1)での最高スコアは、Claude Opus 4.8の約2780万ドルだった。開始資金100万ドルの約28倍で、500日間のシミュレーションを全3ランとも完走している。GPT-5.5が約2130万ドルで続くが、こちらは3ランのうち1ランのみで達成した記録だ。残り2ランは倒産しており、結果にばらつきがある。

論文公開後に公式サイト(ceobench.com)では、Claude Fable 5が約4715万ドルの最終資金を記録してランキング首位に掲載されているとされるが、この数値はarxiv論文v1には収録されていない。論文投稿後に追加されたモデルとみられ、ceobench.comはarxiv v1とは独立して更新されている。論文で正式に報告されているトップスコアはClaude Opus 4.8の約2780万ドルだ。
これら上位モデルと、それ以外の差は桁違いだ。Claude Opus 4.7は約39万ドルで生き残ったものの、500日後の残高は開始時を大きく下回った。Kimi K2.6は約9万8000ドル、Claude Sonnet 4.6は約7万ドル。これらはまだ倒産を免れたが、ほぼすべてのリソースを消費した状態だ。
最下位層は壊滅的だ。GLM 5.1は最終的に全ランで倒産して残金324ドル、Claude Haiku 4.5は231ドル(平均生存日数145日)、Gemini 3 Flashは226ドル(平均生存154日)、DeepSeek V4 Proは176ドル(平均生存114日)、Grok 4.20に至っては37ドルで平均わずか28日で全滅した。同じ「AIエージェント」というカテゴリに括られる存在同士でありながら、最終資金に100万倍以上の差が生まれた。
AIゼロのルールに大半が負けた意味
数値の中でひとつ目を引くものがある。約1576万ドルという金額だ。これはルールベースヒューリスティック——LLM(大規模言語モデル)を一切使わない、人間が手書きしたシンプルなルールの集合体——が達成した最終資金だ。
このプログラムは「もし顧客離脱率が上がったら価格を下げる」「競合の品質が改善されたら開発投資を増やす」といったif-then型のルールで動く。学習もなければ、推論もない。それでも500日後に約1576万ドルを手元に残した。
結果、Claude Opus 4.8とGPT-5.5を除く全モデルがこのルールベースプログラムに敗北した。Claude Opus 4.7の約39万ドルはルールベースの4分の1以下だ。最下位モデルに至っては、比較すること自体が意味を持たないほどの差がある。
研究チームは「エージェントは表面上もっともらしい行動を取れる。しかしその行動が、遅延フィードバック・隠れた状態・非定常性という条件下で複利的に積み上がる必要がある場合、失敗する」と述べている。単発の判断では合理的に見えても、500日間の積み重ねで戦略として成立するかは別の問いだ。
コーディングや文書作成で高い推論力を発揮するモデルが、長期経営では固定ルールに敗れる。タスクを単発で実行する能力と、何百もの意思決定を長い時間軸で積み重ねる能力は、本質的に訓練の方向性が異なる。現在の最先端モデルは前者に特化しており、後者の体系的な計測はCEO-Benchが初めて試みた。
成功を分けた行動パターン:探索か、守りか
研究チームが指摘する最初の差は、開発への投資配分だ。GPT-5.5は収益の89%、Claude Opus 4.8は87%を製品開発に向けた。他のモデルは10〜44%にとどまっており、短期の資金保全より長期成長に賭けたかどうかがここで分かれた。
次に情報の扱い方。成功したモデルは、データベースに直接現れない隠れた顧客嗜好を、交渉の履歴や行動パターンから推論して活用した。表に出ている数字だけを見るのではなく、その裏にある構造を読み取った。
予測精度も差を分けた。上位モデルは顧客コホートをシミュレートするコードを自ら書いて将来のキャッシュフローを予測し、誤差を小さく保ち続けた。手を打つ根拠を「今見えているもの」ではなく「明日起きること」に置いた。
そしてプランニングの形式。上位モデルは「もし競合が値下げしたら開発費を増やし、そうでなければ顧客維持に集中する」といった条件分岐型(if-then型)の思考で動いた。単線的な計画ではなく、複数シナリオを事前に想定して動いたことが、変化への適応速度に繋がった。
対照的に、Claude Opus 4.7とOpus 4.8を比較すると、結果は大きく開く。Opus 4.7も同じ「全3ラン生存」という記録を持つが、最終資金は約39万ドルと、Opus 4.8の約70分の1だ。同系列モデルのわずかなバージョン差が、長期経営では途方もない差として現れた。これは単純な「賢さ」の違いではなく、長期視点での判断精度の差だと研究チームは見ている。
ツール環境が裏目に出た逆説
Claude CodeやCodexといった開発者向けツール環境を使ったモデルは、通常のAPI呼び出しと比べて行動の頻度が激減し、パフォーマンスが悪化した。ツールが豊富であれば性能が上がるという直感とは逆の結果だ。研究チームはこの原因として、開発向けシステムプロンプトの影響を推測している。「コードを書く」ことに最適化されたプロンプトが、「経営判断を繰り返す」という文脈では逆効果になった可能性がある。どんなシステムプロンプトをエージェントに与えるかが、長期的なパフォーマンスを左右するという発見だ。
現時点での最高記録(公式サイト上のClaude Fable 5の約4715万ドル)でさえ、研究チームが算出した理論上限22億ドルの約2%にとどまる。500日間で理論的には22億ドルが可能な設計のシミュレーションで、現状のトップモデルが積み上げた資金はその50分の1以下だ。研究チームは「テストはまだ全然飽和していない」と述べており、500日間のシミュレーションには計測できる問題がまだ大量に残っている。
研究チームは隠れた情報の推論・複数ステップの予測・変化への持続的な適応の3点を、現在のモデルが共通して苦手とする能力として特定した。Opus 4.8の約2780万ドルでさえ理論上限の1.3%程度であり、このテストが計測できる問題の幅はまだ広い。これらの能力に特化した訓練が次世代モデルの設計でどう取り込まれるかが、今後の問いになる。