Googleは2025年11月6日、第7世代のTensor Processing Unit (TPU)「Ironwood」の一般提供を数週間以内に開始すると発表した。この発表は、AIワークロードの重心がモデルの「学習」から「推論」へと急速に移行し、より複雑なエージェント型ワークフローが台頭する「推論の時代」に対する、Googleの明確な技術的回答である。Ironwoodは、単体のチップ性能で競合のNVIDIA Blackwellアーキテクチャに匹敵するだけでなく、最大9,216チップを単一の計算ドメインとして接続するPodアーキテクチャにより、システムレベルのスケーラビリティで独自の路線を打ち出している。
「推論の時代」が要求する新たなインフラストラクチャ
現代のAI、特に大規模言語モデル(LLM)の活用は、巨大な計算資源を投入してモデルを構築する「学習フェーズ」から、そのモデルを利用して実用的な応答を生成する「推論フェーズ」へと主戦場を移しつつある。さらに、複数のモデルやツールを協調させて複雑なタスクを自律的に実行する「エージェント型ワークフロー」の出現は、コンピューティングインフラに対する要求を根本から変えた。
この新しいパラダイムでは、単一の巨大なAIアクセラレータだけでなく、データの前処理やアプリケーションロジックを担う汎用CPUと、AIアクセラレータとの緊密な連携が不可欠となる。GoogleがIronwoodと同時にArmベースのカスタムCPU「Axion」を発表したのは、この変化に対応するシステム全体の最適化を目指す戦略の表れである。
Googleは過去10年以上にわたり、TPU、YouTube向けのVideo Coding Unit (VCU)、モバイル向けのTensorチップなど、特定用途向けカスタムシリコンの開発を続けてきた。モデル研究、ソフトウェア、ハードウェア開発を垂直統合することで、システムレベルでの性能最適化を追求する。 この思想の延長線上に、今回のIronwoodとAxionは位置づけられる。
TPU v7 “Ironwood” アーキテクチャ分析
Ironwoodの技術的特徴は、チップ単体の性能と、それをシステムとして統合するスケーリング技術の両面から評価する必要がある。
チップ単体の性能: NVIDIA Blackwellとの直接比較
Ironwoodは、チップ単体の演算性能とメモリ性能において、NVIDIAの最新アーキテクチャであるBlackwellに正面から対抗する仕様を備えている。
| スペック | Google TPU v7 “Ironwood” | NVIDIA B200 (Blackwell) | 考察 |
|---|---|---|---|
| 演算性能 (FP8) | 4.6 PFLOPS (Dense) | 4.5 PFLOPS (Dense) | ほぼ同等。両者ともに低精度演算に特化し、推論・学習のスループットを最大化する設計。 |
| メモリ容量 | 192 GB (HBM3e) | 192 GB (HBM3e) | 同容量。巨大モデルのパラメータをチップ内に保持する能力は同等レベル。 |
| メモリ帯域 | 7.4 TB/s | 8 TB/s | B200がわずかに優位。実効性能はワークロードに依存するが、基本的なデータ供給能力は拮抗。 |
| チップ間帯域 | 9.6 Tb/s (ICI Links) | 14.4 Tb/s (NVLink 5.0) | NVLinkが帯域で優位。ただし、これはチップ間の直接接続性能であり、システム全体の通信性能はトポロジーに大きく依存する。 |
表から明らかなように、Ironwoodは演算性能(FLOPS)とメモリ性能(容量・帯域)において、NVIDIA B200と極めて近いスペックを持つ。これは、Googleがもはや単なるスケーラビリティだけでなく、個々のプロセッサの性能においても最先端を追求していることを示している。チップ単体の性能が拮抗しているからこそ、システムレベルのアーキテクチャの違いが、両者の性能特性を決定づける重要な要素となる。
システムレベルの設計思想: “スケールアップ” の哲学
GoogleとNVIDIAの最大の違いは、多数のアクセラレータを単一の計算ユニットとして結合する「スケールアップ」の規模にある。
- NVIDIA NVL72: 72基のBlackwell GPUをNVLink Switchで接続し、単一の計算ドメインを構成する。
- Google Ironwood Pod: 最大9,216チップをInter-Chip Interconnect (ICI)で接続し、単一の巨大な計算ドメイン「Superpod」を構成する。
この100倍以上の規模の違いは、両社の設計思想の差を象徴している。NVIDIAが比較的小さな高密度ユニット(NVL72)を複数スケールアウトさせるアプローチを採るのに対し、Googleは極めて大規模なスケールアップ・ドメインを構築することに注力している。Anthropicが最大100万個のTPUを利用する計画を発表していることからも、この巨大な計算ドメインが、超大規模モデルを開発・運用する上で強力な魅力となっていることがうかがえる。
この巨大スケールを実現する核心技術が、3Dトーラス・トポロジーとOptical Circuit Switching (OCS) である。
3Dトーラス・トポロジー
NVIDIAがNVLink Switchという高性能なパケット交換スイッチを用いて比較的フラットなネットワークを構築するのに対し、GoogleはTPU Pod内で各チップを3次元のメッシュ状(トーラス)に直接接続する。
- 利点: 高価で消費電力の大きい外部スイッチが不要となり、コストと電力効率に優れる。チップ間の直接接続により、隣接チップ間の通信レイテンシを極限まで低減できる。
- 課題: メッシュが大規模になるほど、遠く離れたチップ間の通信に必要なホップ数が増加し、全体の通信レイテンシが増大する可能性がある。NVIDIAのスイッチドファブリックでは、どのGPU間も最大2ホップで通信可能であるのに対し、トーラスではトポロジーに依存した多段ホップが必要となる。
どちらのトポロジーが優れているかは、実行するワークロードの通信パターンに依存する。局所的な通信が多い計算ではトーラスが有利であり、全体的でランダムな通信(All-to-All通信など)が多い場合はスイッチドファブリックが有利に働く可能性がある。
Optical Circuit Switching (OCS)
Googleは、3Dトーラスの静的な接続性を補完し、耐障害性を高めるためにOCSを導入している。これは一般的なパケットスイッチとは異なり、光ファイバーの経路を物理的に切り替える「光回線交換」に近い技術である。
OCSの役割は、アーキテクチャ上、極めて重要である。
- 動的なトポロジー再構成: ワークロードの特性に合わせて、巨大なPodを複数の小さなPodに分割したり、接続形状を動的に変更したりすることが可能になる。これにより、トーラス・トポロジーの柔軟性を高めている。
- 耐障害性の向上: 特定のチップやリンクに障害が発生した場合、OCSが瞬時に光路を迂回させ、計算を継続させる。9,216チップという大規模システムにおいて、個々のコンポーネントの故障は確率的に避けられない。システム全体を停止させることなく運用を続ける上で、この機能は不可欠である。
ハードウェアとソフトウェアの協調設計 (Co-design)
Googleの強みは、Ironwoodというハードウェアを、AI Hypercomputerという統合システムの一部として、ソフトウェアと一体で設計している点にある。
- Google Kubernetes Engine (GKE) の Cluster Director: GKEはTPU Podの物理的なトポロジーを認識し、通信オーバーヘッドが最小になるように計算タスクをインテリジェントに配置する。これにより、3Dトーラス・アーキテクチャの性能を最大限に引き出す。
- オープンソースフレームワークへの貢献:
- MaxText: 学習や強化学習(SFT、GRPOなど)のための高性能フレームワークを提供し、TPU上での最新モデル開発を容易にする。
- vLLM: 人気のある推論ライブラリであるvLLMがTPUをサポートしたことで、開発者はわずかな設定変更でGPUとTPUを切り替えたり、併用したりできるようになった。これは、NVIDIAのCUDAエコシステムに対する重要な一歩である。
- GKE Inference Gateway: TPUサーバー群全体で負荷を分散し、最初のトークンが出力されるまでの時間(TTFT)を最大96%削減、サービングコストを最大30%削減するなど、推論性能の最適化に特化した仕組みを提供する。
Axion CPU: AIワークロードを支える汎用コンピュート
AIワークロードはアクセラレータだけで完結しない。データの前処理、結果の後処理、アプリケーションサーバーの実行など、汎用CPUが担う役割は依然として大きい。Googleは、この領域の効率化のために、Arm Neoverse V2をベースとしたカスタムCPU「Axion」を開発し、ポートフォリオを拡充した。
- N4A (プレビュー): 最大64vCPU、512GBメモリ。価格性能比を重視し、マイクロサービスやコンテナ化されたアプリケーション、データ分析などに最適化されている。
- C4A Metal (プレビュー予定): 最大96vCPU、768GBメモリ。ベアメタルインスタンスとして提供され、ハイパーバイザーやライセンス要件の厳しいソフトウェア、ネイティブArm開発などの特殊なワークロードを対象とする。
顧客事例として、Vimeoは動画トランスコーディング処理でx86比30%の性能向上を、ZoomInfoはデータ処理パイプラインで60%の価格性能比向上を報告しており、Axionが特定のワークロードにおいて高い効率を発揮することを示唆している。
市場への影響と今後の展望
IronwoodとAxionの投入は、AIインフラ市場における勢力図に大きな影響を与える可能性がある。
- NVIDIA一強体制への挑戦: Ironwoodは、チップ単体性能でBlackwellに並び、システムレベルのスケールアップ能力で明確な差別化を図る。これは、これまで「チップ性能はNVIDIA、スケールはGoogle」と見られていた構図を覆し、Googleが両面でトップ性能を追求する姿勢の表れである。しかし、NVIDIAの最大の強みはCUDAを中心とした成熟したソフトウェアエコシステムであり、GoogleがvLLM対応などでエコシステムの拡大を急いでいるものの、この差が当面の競争軸となることは間違いない。
- クラウド事業者間の競争激化: AWS (Trainium, Inferentia) やMicrosoft (Maia) もカスタムAIチップの開発を加速させており、大手クラウドプロバイダーが自社のインフラに最適化された独自シリコンを持つことは標準となりつつある。GoogleのAI Hypercomputer構想は、単なるコンピュートリソースの提供から、ハードウェアとソフトウェアが密に統合されたAIスーパーコンピュータ環境の提供へと、ビジネスモデルを進化させる試みと見なせる。
- 開発者への示唆: Anthropicのように、特定のクラウドプロバイダーが提供する巨大なスケールアップ・ドメインを前提としたモデル開発が今後主流になる可能性がある。一方で、vLLMのようなオープンソースライブラリのマルチプラットフォーム対応は、開発者が特定のハードウェアにロックインされるリスクを低減し、健全な競争を促進する上で重要な役割を担うだろう。
GoogleのIronwoodは、単なる新世代チップではなく、AIの使われ方の変化を見据えたシステムレベルの設計思想の結晶である。その真価は、今後数ヶ月から数年にかけて、実際のワークロードでどれだけの性能と効率を発揮できるかによって問われることになる。
Sources