NVIDIAの次世代AIアクセラレーター計画をめぐり、2027年世代のRubin Ultraで予定されていた4コンピュートチップレット構成が見直されたとSemiAnalysisが伝えた。同サイトによると、NVIDIAは製造実行上の懸念から4チップレット案を取りやめ、2チップレット構成へ移すという。NVIDIAはこの設計変更を公表していないため、現段階で確認できるのは報じられた設計変更と、NVIDIAが公開済みのVera Rubin世代の仕様である。
焦点は、Rubin Ultraの理論性能が下がるかどうかより、NVIDIAがどの水準の複雑さなら量産へ持ち込めると判断したかにある。AI向けGPUは、演算ダイ、HBM、パッケージ、NVLink、冷却、ラック内の電力配分が一体で成立する製品になっている。4つの大型コンピュートダイと多数のHBMスタックを一つのパッケージに載せる構想は、性能を押し上げる一方で、歩留まり、熱、電源、基板配線、供給計画を同時に難しくする。今回の報道が正しければ、NVIDIAは最高性能を一つのGPUパッケージへ詰め込むより、量産しやすい設計をラック全体で束ねる方向へ比重を移したことになる。
公式に確認できるRubin世代はNVL72から始まる
NVIDIAが現在前面に出している公式のRubin世代は、Vera Rubin NVL72である。同社の製品ページでは、1ラックに72基のRubin GPUと36基のVera CPUを載せ、ConnectX-9 SuperNIC、BlueField-4 DPU、NVLink 6スイッチ、Quantum-X800 InfiniBand、Spectrum-X Ethernetで構成するラックスケールのAIスーパーコンピューターとして説明されている。
仕様表では、Vera Rubin NVL72はNVFP4推論で3,600 PFLOPS、NVFP4学習で2,520 PFLOPSを掲げる。GPUメモリは合計20.7TBのHBM4、HBM帯域は1,580TB/s、NVLink帯域は260TB/sである。単体のRubin GPUは50 PFLOPSのNVFP4推論、35 PFLOPSのNVFP4学習、288GBのHBM4、22TB/sのメモリ帯域を持つとされる。
NVIDIAの公式資料はRubinを「チップ」ではなく「ラック」を単位に語っている。Vera Rubin NVL72について、GB200 NVL72比で100万トークン当たりのコストを10分の1にし、同じ期間でMoEモデルを学習するために必要なGPU数を4分の1にすると説明している。これらは将来の性能予測を含む数字で、同社のページにも仕様は予備情報で変更され得ると記されている。それでも、同社が売りたい価値は明確である。GPU単体のピーク性能より、AIファクトリー全体でどれだけ多くのトークンを電力と時間の制約内で処理できるかが前面に出ている。
4チップレット化は性能と量産性を同時に押し上げる賭けだった
Rubin Ultraの4チップレット案は、Rubin世代の延長として自然な発想だった。現在のVera Rubin NVL72でも、1つのVera Rubin Superchipは2基のRubin GPUと1基のVera CPUを組み合わせる。単体GPU当たりのHBM4容量と帯域を増やし、複数GPUをNVLinkで密に結ぶ設計は、巨大モデルの学習と推論で通信待ちを減らすために必要になる。
4つの大型コンピュートダイを1パッケージに載せると、難しさは直線的には増えない。ダイが大きくなるほど欠陥に当たりやすくなり、複数ダイを同じパッケージに載せるほど、良品同士を組み合わせる管理が難しくなる。HBMスタックを増やす場合も、メモリ自体の確保、ベースダイ、インターポーザー、配線密度、熱の逃がし方がそろわなければならない。1カ所で問題が起きると、完成品全体の出荷に響く。
SemiAnalysisが伝えた「製造実行上の懸念」は、この複合リスクを指す言葉として読める。NVIDIAはBlackwell世代でもラックスケール製品を液冷化し、Grace CPU、Blackwell GPU、NVSwitch、NIC、管理ソフトをまとめて最適化してきた。Rubin世代ではNVLink 6がGPU当たり3.6TB/sの帯域を持ち、72GPUのNVL72で260TB/sのGPU間帯域を掲げる。1つのパッケージに無理をさせるか、より作りやすいパッケージを多く結ぶかという選択は、性能、出荷時期、顧客導入の確度をまとめて左右する。
HBMの搭載数が変われば、性能表より先に供給計画が動く
SemiAnalysisによると、4チップレット構成のRubin Ultraは16個のHBM4Eスタックを想定し、見直し後は8個になるとされる。NVIDIAはこの数字を確認していないが、仮にHBMスタック数が半分になるなら、影響はメモリ容量と帯域、パッケージ面積、消費電力、HBM調達量の全てに及ぶ。
HBMはAIアクセラレーターの性能を決める部品であり、同時に供給制約にもなりやすい。SK hynixは2025年9月、HBM4の開発完了と量産準備を発表した。同社によると、HBM4は2,048本のI/O端子により前世代比で帯域を倍増し、電力効率を40%以上改善する。JEDEC標準の8Gbpsを上回る10Gbps超の動作速度を実装したという。
この文脈でRubin UltraのHBMスタック数が減るなら、NVIDIAにとっては2つの相反する効果が出る。1パッケージ当たりのメモリ部品数が減れば、パッケージ組み立てと熱設計は扱いやすくなる。メモリ供給が逼迫する局面では、1つのGPUに割り当てるHBM数を減らすことで、より多くのGPUパッケージを出荷できる余地も生まれる。一方で、GPU当たりのメモリ容量と帯域が下がる場合、巨大モデルを単体パッケージ内で処理する余裕は減る。ラック内通信とソフトウェアで吸収できる範囲を超えれば、顧客が期待する性能曲線は変わる。
AIインフラの調達担当者が見るべきなのは、GPU名の後ろにつく「Ultra」の有無より、最終的なHBM容量、帯域、NVLink構成、ラック当たりの消費電力、出荷時期である。NVIDIAの公式資料がVera Rubinについて「生産出荷は今秋から」と説明している一方、将来製品や機能は変更され得るとも明記している。Rubin Ultraで本当に設計が変わるなら、その変更は製品名より先に、データセンターの電力・冷却・発注計画へ反映される。
ラック全体で補える設計なら、顧客支出は単純には下がらない
4チップレット案が2チップレット案へ移ると、直感的には1個のGPUは安く、性能は低くなるように見える。だが、NVIDIAの販売モデルはすでに単体GPUの積み上げから、ラックとPODスケールのAIファクトリーへ移っている。Vera Rubinプラットフォームは、NVL72、Vera CPUラック、Groq 3 LPXラック、BlueField-4 STXストレージ、Spectrum-6 SPX Ethernetを組み合わせる構想として説明される。
1パッケージの規模を下げても、顧客が支払う総額が同じ方向に下がるとは限らない。性能目標を維持するためにGPUパッケージやラック数が増えれば、サーバー、ネットワーク、電源、冷却、設置面積、運用ソフトウェアの費用が増える。逆に、量産しやすくなって納期が安定し、故障率や冷却の難しさが下がるなら、顧客にとっては高密度な未確定設計より導入しやすい選択になる。
NVIDIAのNVLink 6説明は、この考え方を裏づける。第6世代NVLinkはRubinでGPU当たり3.6TB/sの帯域を提供し、Vera Rubin NVL72では72GPUを全対全通信で結ぶ。大規模MoEモデルでは、GPUごとの演算能力に加え、エキスパート側のパラメーター配置、KVキャッシュ、通信待ち、推論時のトークン生成をどう分散するかが処理量を決める。パッケージを大型化しても、ラック内とラック間の通信設計が性能の上限を左右する。
NVIDIAが確認するまで、Rubin Ultraの本当の姿は固まらない
今回の報道は、NVIDIAがAIアクセラレーターのロードマップで直面する現実的な制約を浮かび上がらせた。計算需要は伸び続け、NVIDIAは公式にVera Rubinの量産移行を進めている。一方で、同社の資料は将来製品や仕様が変更され得ることも明記している。先端パッケージ、HBM、液冷ラック、スケールアップ通信を同時に進める製品では、設計の野心と量産の確度をどこで釣り合わせるかが商用化の成否を決める。
Rubin Ultraの4チップレット案が本当に退いたのなら、NVIDIAの競争力が直ちに落ちるという単純な話にはならない。読者が見るべきなのは、2027年世代の公式仕様でHBM4Eのスタック数、GPU当たりのメモリ帯域、ラック当たりのGPU数、NVLink世代、消費電力、出荷時期がどう示されるかである。NVIDIAが最終設計を公表した時点で、今回の報道は「ピーク性能を削った話」だったのか、それとも「量産できるAIファクトリーへ寄せた設計判断」だったのかが見えてくる。