OpenAIは2025年8月7日(米国時間)、最新モデル「GPT-5」を発表した。インフラ担当のAnuj Saharan氏は、2024年以降に同社のコンピュートを15倍へ拡張し、直近60日で60以上のクラスタを構築、GPT-5のローンチに向けて「20万超のGPU」を投入したと述べている。公式発表はGPT-5がMicrosoft AzureのAIスーパーコンピュータで訓練されたことを明記し、配信対象は「7億人のChatGPTユーザー」全てだ。だが「20万GPU」が訓練専用か推論配信用かは不明で、数字の読み方が肝になりそうだ。

AD

惑星規模へ:OpenAIが明かした驚異のインフラ拡張

OpenAIのコンピュートおよびインフラストラクチャ担当、Anuj Saharan氏が明らかにした数値は、AI開発のスケールが新たな次元に突入したことを明確に物語っている。

  • 演算能力: 2024年に入ってから15倍に増強。
  • GPU規模: GPT-5のローンチと7億人への展開に20万基以上のGPUを使用。
  • クラスター構築: 直近60日で60以上の新規クラスターを構築。
  • ネットワーク: 「大陸全体のトラフィックを超える」規模のバックボーン。
  • 将来計画: 次世代の超知能(Superintelligence)に向け、4.5ギガワット(GW)規模の電力インフラを設計。

これらの数字は、もはや抽象的な「クラウド」という言葉では覆い隠せない、巨大な物理的実体を伴う。特に「大陸全体のトラフィックを超えるバックボーン」という表現は、単なる比喩ではない。これは、大規模言語モデルの学習におけるノード間の膨大なAll-Reduce通信を指しており、インターコネクト技術こそがシステム全体の性能を規定するボトルネックであることを示唆している。

ただし、OpenAIの公式ブログはモデルの仕様や性能、提供形態に焦点を当てており、トレーニングに用いたGPU台数を明かしていない。明示されるのは「Microsoft Azure AIスーパーコンピュータで訓練」という事実のみである。ここから推論できるのは、「20万GPU」は訓練だけでなく初期配信(推論)を含む総動員数である可能性が高いという点だ。GPT-5が全ユーザーにロールアウトされたことから、配信側のスパイクを吸収する余剰が必要だったと読むのが妥当だろう。

20万GPUクラスタのアーキテクチャとボトルネック

20万基ものGPUを単一のタスク、すなわちGPT-5のような巨大モデルの学習と推論に投入することは、単にGPUを並べるだけでは達成できない。そこには、マイクロ秒単位のレイテンシとテラバイト/秒級の帯域幅を巡る、アーキテクトたちの熾烈な戦いが存在する。

GPU相互接続(Interconnect)こそが生命線

20万基のGPUは、おそらくNVIDIAのHopper(H100/H200)あるいはBlackwell(B100/B200)アーキテクチャが中核を成していると考えるのが妥当だ。これらのGPUは単体でも強力だが、真価はNVLinkやNVSwitchによる高密度な相互接続にある。

Saharan氏が言及した「60以上のクラスター」という分割は、フォールトトレランス(耐障害性)や、特定のワークロードに最適化された「ポッド」としての役割を担っている可能性が高い。しかし、巨大モデルの学習では、これらのクラスターを跨いだ勾配同期が不可欠となる。

OpenAIが構築したバックボーンは、おそらくNVIDIAのQuantum-2 InfiniBandプラットフォームや、それに準ずる超低レイテンシ・広帯域のファブリックだろう。GPUクラスタ内ではRDMA(Remote Direct Memory Access)によりCPUを介さずGPUメモリ間で直接データ転送を行い、クラスター間では光ファイバー網を駆使して通信する。このネットワーク性能が、学習時間の短縮、ひいてはモデル開発のイテレーション速度を直接的に決定づける。

演算能力(FLOPs)とメモリ帯域のトレードオフ

15倍の演算能力増強は、単純な理論性能(FLOPs)の向上だけでは意味をなさない。GPTのようなTransformerベースのモデルは、その巨大なパラメータ(ウェイト)をメモリから演算ユニットへ供給する過程が律速段階となりやすい、典型的なメモリ帯域律速(Memory-bound)アプリケーションである。

仮に20万基のGPUがすべてH100 SXM5(メモリ帯域 3.35TB/s)だと仮定すると、システム全体の総メモリ帯域は 670 PB/s(ペタバイト/秒) という天文学的な数値に達する。この広大な帯域があって初めて、数百兆パラメータ級のモデルが現実的な時間でアテンション計算を実行できる。この観点から、HBM3eのような広帯域メモリの採用は、モデルのコンテキスト長拡大や高速化に不可欠な要素と言える。

4.5GWという電力消費の物理的制約

Saharan氏が言及した4.5GWという数字は、OpenAIの野心の大きさと、それが直面する物理的現実を象徴している。参考までに、最新の原子力発電所1基の出力が約1GWである。これは、AI開発が半導体設計やソフトウェア工学の領域を完全に超え、エネルギーインフラと土木建設の領域にまで踏み込んだことを意味する。

H100 SXM5のTDP(熱設計電力)は700W。20万基であれば、GPUだけで140MWの電力を消費する。これにCPU、ネットワーク機器、そして何よりこれらを冷却するための莫大な電力を加えると、巨大なデータセンター「群」が必要となる。Oracleとの300億ドル/年とも噂される4.5GW規模の契約は、この物理的制約を乗り越えるための戦略的パートナーシップに他ならない。

AD

Stargate計画とOracle:ソフトウェア企業の物理インフラ回帰

この巨大な投資は、OpenAIが単なるモデル開発企業から、AIのための垂直統合型インフラ企業へと変貌を遂げつつあることを示している。Microsoft Azureという強力なパートナーがいながら、Oracle Cloud Infrastructure (OCI)との大規模契約や、自社データセンター「Stargate」の建設計画を推進するのはなぜか。

OCIがHPCやAIワークロードで評価されているのは、まさにこのベアメタル性能と低レイテンシなRDMAネットワークに強みがあるからだ。OpenAIは、最高のパフォーマンスを追求するために、インフラの物理層まで踏み込んだコントロールを求めていると考えられる。これは、ソフトウェアの優位性が、それを動かすハードウェアとインフラの最適化によってのみ最大化されるという、コンピューティングの原点への回帰とも言える。

「キャパシティクランチ」が示唆する推論の現実

これほどのインフラを構築してもなお、CEOのSam Altman氏が「キャパシティクランチ(容量不足)」を警告するのは、学習と推論のワークロード特性が根本的に異なるからだ。

学習は、長期間にわたり計算リソースを占有するバッチ処理だ。一方、7億人が利用する推論サービスは、低レイテンシが要求される、無数の断続的なリクエストの集合体である。ユーザーがプロンプトを入力してから応答が返るまでの時間は、KVキャッシュの効率的な管理、リクエストの動的なバッチング、そしてSpeculative Decodingのような先進的な推論最適化技術に依存する。

20万基のGPUを確保することと、それをミリ秒単位で変動する需要に効率的に割り当て、サービス品質(QoS)を維持することは全く別の挑戦だ。Altman氏の警告は、この推論パイプラインの最適化という、地道だが極めて困難なエンジニアリング課題の存在を示唆している。OpenAIの本当の戦いは、モデルを訓練し終えた、まさに今この瞬間から始まっているのかもしれない。


Sources