毎分150億トークンの代償——AI業界を覆うコンピュート配給制の実態

エージェントAIの急速な普及が、AI業界の計算資源を食い尽くしつつある。OpenAIのAPIが処理するトークン量は2025年10月の毎分60億から、2026年3月末には毎分150億へと2.5倍に膨れ上がったとWall Street Journal紙が報じている。この爆発的な需要増加に対し、GPU製造やデータセンター建設は数年単位のリードタイムを要する。結果として今、AI企業は自社製品の取捨選択を迫られ、クラウドGPUの価格は2ヶ月で48%急騰し、安定稼働すら維持できない企業が現れ始めた。AI業界は、限られた計算資源をどの製品に配分するかを選ばなければならない「コンピュート配給制」の時代に突入している。

ARR 300億ドルでも稼働率99%を割るAnthropic

年間経常収益（ARR）90億ドルから4ヶ月で300億ドルへ。Anthropicの成長曲線は、計算資源の供給能力を完全に置き去りにした。2025年末に90億ドルだったARRは2026年2月に140億ドル、4月には300億ドルに到達している。Claude CodeをはじめとするコーディングエージェントやAPIの法人利用が爆発的に伸びた結果だ。

しかし、代償は稼働率に現れた。Claude APIの90日間稼働率は、4月8日時点で98.95%にとどまった。クラウド業界で一般的に求められる99.99%の水準とは桁が違う。98.95%は90日間で約22.6時間のダウンタイムが発生した計算になる。第三者監視サービスStatusGatorでも98.94%が記録されており、数値の信頼性は高い。

この不安定さは顧客離反という実害を生んでいる。ノーコード開発ツールRetoolの創業者David Hsuは、AnthropicのOpus 4.6を技術的に好むものの、サービスが繰り返しダウンするためOpenAIに移行したとWSJに語った。技術力で選ばれながら安定性で失う構図は、需要が殺到するほどインフラが追いつかず、インフラが追いつかないほど顧客が離れる負のスパイラルを生みかねない。

GitHub Copilotにも同様の圧力が及んでいる。GitHubは4月10日、高い同時実行数と集中的な使用パターンを理由に、サービス信頼性制限とモデル別容量制限を新たに導入した。さらにOpus 4.6 Fastの提供も廃止している。コーディングエージェントの利用が急増する中、GitHub側もリソース配分の最適化を迫られた格好だ。

OpenAIがSoraを切り捨てた計算式

OpenAIは4月、動画生成AI「Sora」の終了を発表した。Webアプリ版は4月26日に、APIは9月24日に提供を終える。表向きの理由は「コーディングとエンタープライズ製品への集中」だが、その背景にはコンピュート資源の厳しい現実がある。

Soraは1日あたり約100万ドルの運用コストがかかっていたと報じられている。年間に換算すれば3億6500万ドル相当だ。OpenAI CFOのSarah Friarは「短期的なコンピュート確保に時間の多くを費やしており、どのプロジェクトを棚上げするか難しい判断を迫られている」とWSJに語った。Soraの閉鎖は、この「棚上げ」判断の最も可視化された事例だ。

OpenAIが計算資源の再配分先として選んだのは、コードネーム「Spud」と呼ばれる新AIモデルの開発や、エンタープライズ向け製品群だ。APIトークン消費量が毎分60億から150億へ2.5倍に増えた環境で、投資対効果の低い動画生成AIを維持する余裕はなかった。Soraの終了は単独の製品判断を超え、AI企業が「何を作らないか」を決めなければならない時代の到来を告げている。

GPU価格48%急騰が映し出す供給側の限界

「5年以上のクラウドインフラ事業で経験したことのない容量危機だ」。Vultr CEOのJ.J. Kardwellは、現在の逼迫状況をこう表現した。ハードウェアのリードタイム、データセンター建設の遅延、2026年分の電力が既に確保済みである点がボトルネックだとWSJに語っている。

Ornn Compute Price Indexの数値がこの危機感を裏付ける。NVIDIAのBlackwellチップのスポット価格は2ヶ月前の1時間あたり2.75ドルから4.08ドルへと48%上昇した。GPUの製造には先端半導体プロセスが必要であり、TSMCの生産能力には限りがある。完成したGPUを稼働させるデータセンターの建設には12〜18ヶ月以上を要し、さらにそのデータセンターに供給する電力の確保も制約となっている。

クラウドGPUプロバイダーのCoreweaveは、この供給逼迫を価格戦略に転換している。WSJによると、同社はGPU利用料を20%以上値上げし、小規模顧客に対して3年間の長期契約を要求し始めた。短期利用や柔軟な契約を前提としていたスタートアップにとって、コスト構造そのものの転換を意味する。資金力のある大手企業がGPU容量を長期で囲い込み、中小プレイヤーがスポット市場で割高なリソースを奪い合う二極化の構図が形成されつつある。

2029年まで解消しない構造的ギャップ

Bank of America（BofA）のアナリストは、コンピュートや電力などのリソース不足が少なくとも2029年まで需要が供給を上回り続けると予測している。この予測が正しければ、現在の逼迫は一時的な「成長痛」ではなく、3年以上続く構造的な制約だ。データセンターの企画から稼働開始まで2〜3年、大規模な電力インフラの増設にはさらに時間がかかる。一方で、OpenAIのトークン消費量が5ヶ月で2.5倍に膨らんだペースがこのまま続けば、インフラ投資が追いつく余地は当面ない。

エージェントAIは従来のチャット型AIと異なり、1回のセッションで自律的に複数のタスクを実行するため、消費するトークン量と計算資源が桁違いに大きい。Claude Code、GitHub Copilotのエージェントモード、OpenAIのCodexといったツールが開発者の間で急速に普及しており、需要増加のペースはインフラ整備の速度を大きく上回っている。この需給ギャップは、AI業界の勢力図を塗り替え始めた。

潤沢な資金でGPU容量を確保できるOpenAI、Google、Microsoftは、コンピュートの配分先を戦略的に選択しながら成長を続けられる。Anthropicは技術力で選ばれながらも、自社データセンターを持たずクラウドプロバイダーに依存する構造が稼働率の低下と顧客離反のリスクを招いている。スタートアップに至っては、Coreweaveの3年契約要求のような条件変更ひとつで事業計画が根底から覆る。

2026年のAI業界を規定するのは、モデルの性能競争よりも、誰がどれだけの計算資源を確保できるかという物理的な制約だ。Soraの閉鎖もGitHub Copilotの制限も、Anthropicの稼働率低下も、すべて同じ構造から生まれている。エージェントAIが開いた新しい地平は、そのまま計算資源の争奪戦を前例のない規模で呼び起こした。

Sources

The Wall Street Journal: We’re Using So Much AI That Computing Firepower Is Running Out
Tom’s Guide: OpenAI just killed Sora as company readies IPO and new ‘Spud’ model
GitHub Blog: Enforcing new limits and retiring Opus 4.6 Fast from Copilot Pro+
GuruFocus: NVIDIA GPU Rental Prices Surge in Cloud Data Centers