世界最大規模のAIクラスターを手にしながら、その計算能力の11%しか使えていない——このパラドックスがxAIの「Colossus」で起きている。総投資額180億ドル、55万台超のGPU、総電力1GWという史上最大規模のハードウェアが、業界標準の3分の1以下の効率で稼働している。The Informationが報じた内部告白は、テック企業のハードウェア競争の虚実を露呈させた。新社長のMichael NicollsはこのMFU(Model FLOPs Utilization、モデルの浮動小数点演算利用率)の数値を「embarrassingly low(恥ずかしいほど低い)」と表現し、2ヶ月以内に50%への改善を宣言。物量でトップに立ちながら、ソフトウェアで出遅れるというxAIの構造的な弱点が、初めて公式に問題視された。
たった11%が意味するもの:60,000台分の計算資源
55万台のうち11%しか有効活用できていないということは、実質的に約60,000台分しか機能していないのと同じだ。残る49万台は物理的には存在するが、訓練には活用されないまま——機能的には幽霊のような状態にある。
ColossusにはGPU1台につき数万ドル規模の費用がかかっており、稼働していない49万台分の投資対効果は失われている。MFU11%の状態で同規模のモデルを訓練しようとすれば、業界標準(35〜45%)と比べて3倍以上の稼働時間を要し、同じ研究開発予算の価値が根本から変わる。
xAI社長に就任したMichael NicollsはSpaceXのStarlink部門上級副社長を務めた人物で、製造・インフラ最適化に実績を持つ。関係者に送った内部メモをThe Informationが報じたところによると、「我々のcomputeの能力は恥ずかしいほど低い。MFUは約11%だ」と直截に認め、2ヶ月以内に50%まで引き上げることを目標として示した。「embarrassingly low」という表現が外部に漏れ出た事実は、組織内の危機感の規模を物語る。Nicollsの着任は2026年春であり、数ヶ月在籍したうえでこの水準を改めて問題視したことも、状況の深刻さを映している。
MFUとは何か:GPUの「本当の稼働率」を測る指標
MFUとは、搭載するGPUが理論上持つ最大浮動小数点演算(FLOPs)性能のうち、実際にモデルの演算に使われている割合だ。100%に近いほど無駄なく演算が行われていることを意味するが、大規模AI訓練では通信オーバーヘッドや同期待ちが避けられないため、35〜45%が現実的な上限とされている。
大規模モデルの訓練では数十万台のGPUが連携して計算を分担する。各GPUが次の計算に進むためには前の計算結果を他のGPUから受け取る必要があり、この通信待ちの時間はGPUが演算できない「空き時間」になる。クラスターの規模が大きくなるほど通信の複雑さが増し、待ち時間も伸びる。MetaやGoogleはこの問題にソフトウェアスタックの最適化とハードウェア設計の工夫で対応してきたが、xAIは急速なハードウェア拡張にソフトウェア側の整備が追いつかなかった。
MFU11%のクラスターとMFU46%のクラスターでは、同じGPU台数で同じモデルを訓練する場合、前者は後者の約4倍の時間を要する。裏返せば、MetaやGoogleと同じ訓練速度を出すためには、xAIは4倍以上のGPUを保有しなければならない計算だ。
xAIのMFUがこれほど低い理由:急造インフラとソフトウェアの不均衡
xAIが2023年の創業から1年余りでColossusに55万台超のGPUを集めたスピードは、調達・設置の観点では前例のないものだ。NVIDIA製の最新GPUの供給が逼迫する中、SpaceXとの連携も活用しながら大量確保を実現した。ソフトウェアスタックや分散訓練フレームワークの整備は、その裏で遅れた。
低稼働率の技術的な原因としては、ソフトウェアスタックの未成熟さとデータパイプラインのボトルネックが挙げられている。分散訓練を効率よく行うには、GPU間の通信を最小化するスケジューリング、データの前処理と訓練のタイミングを合わせるパイプライン設計、そして特定のモデル構造に最適化されたカーネルコードが必要だ。Metaは分散訓練インフラの最適化に数年をかけ、GoogleはTPU(Tensor Processing Unit、機械学習専用プロセッサ)でソフトウェアとハードウェアを一体設計することで高いMFUを達成した。xAIはハードウェアを急速に積み上げたが、その上で動くソフトウェア基盤は同じスピードで整備されなかった。
SpaceXから製造最適化の専門家Nicollsを社長として招いた背景には、インフラのスループット改善という視点を組織に持ち込む意図が読み取れる。ロケット製造やStarlinkネットワーク運用で培った大規模オペレーションの最適化手法が、GPUクラスターの稼働率改善に転用できるとxAIが判断したとすれば、これは組織的な賭けだ。AIソフトウェアエンジニアリングとロケット製造の最適化は異なる分野であり、ロケット部門の手法が直結するかは不確実だ。それでもxAIがこの人事を選んだのは、内部でのソフトウェア改善の試みがうまく機能していなかったことを間接的に示してもいる。
MetaとGoogleとの差が示す競争構造
MetaのMFUは約43%、GoogleのMFUは約46%。xAIの11%と並べると、3〜4倍の開きがある。この格差はフロンティアモデルの訓練競争において直接的な不均衡として機能する。
実効的なGPU稼働台数に換算すると、xAIの55万台×11%は約6万台分に相当する。一方、MetaはおよそGPU40万台×43%で約17万台分の実効能力がある。物量では圧倒しながら、実効競争力ではMetaの3分の1以下に落ちている。この差はモデル更新頻度、ベンチマーク性能、新機能のリリース速度として顕在化する。
Metaは公開論文で自社の分散訓練の失敗例や改善プロセスを詳述しており、効率化には年単位の積み上げがあった。Googleは自社設計のTPUでソフトウェア・ハードウェア間の最適化を徹底し、サードパーティのGPUに依存しない体制を構築した。xAIにはその経緯がなく、2ヶ月でMFU50%という目標は、両社が数年かけて積み上げてきた成果に急接近しようとする挑戦だ。達成できれば組織能力の証明になるが、届かなければ問題の根深さが改めて問われる。
SpaceXはColossusの余剰計算リソースをAIコーディング企業のCursorに提供していると報じられており、眠っているGPUを外部に貸し出すことで投資回収を図っている。ビジネス判断としては合理的だが、Grokの訓練競争力がリソースの非効率によって制約されているという構造的課題の裏返しでもある。
「2ヶ月で50%」という目標の射程
MFUを11%から50%に引き上げるには、同じGPU群から約4.5倍の有効演算量を引き出す必要がある。分散訓練の最適化は既存の訓練パイプラインを停止させずに進められるものではなく、大規模な再設計を伴う。
具体的なアプローチとしては、GPU間の通信ライブラリ(NVLinkやInfiniBand)の設定最適化、データローディングと訓練の非同期パイプライン化、そして並列化戦略の再調整が挙げられる。並列化には主に3つの手法がある——テンソル並列は計算そのものを複数のGPUに分散する方式、パイプライン並列は処理の各段階を時系列で複数のGPUに割り当てる方式、データ並列は訓練データを分割してそれぞれのGPU群に処理させる方式だ。これらを最適な比率で組み合わせることで、GPU間の通信待ち時間を最小化できる。55万台規模のクラスターで一斉に調整するには膨大な試行錯誤と実測が必要になる。
2ヶ月での達成可能性は、技術的には中程度と見られる。GPU間通信の最適化だけで2〜3%の改善は見込めるが、データパイプラインの刷新と並列化戦略の再調整を含めれば、さらに4〜5%の向上が期待できる。ただしMetaやGoogleが数年かけて達成した40%台の水準に到達するには、組織的な飛躍が不可欠だ。AI訓練インフラの競争はかつて「いくつのGPUを持っているか」で語られていたが、xAIの事例はその指標が表面しか見せていないことを示した。次世代Grokモデルのリリース時期やベンチマーク性能の向上が、Nicollsの目標達成の成否を市場が知る最初の手がかりとなるだろう。