AIの急速な進化に伴い、その基盤となるハードウェアの重要性が増している。この流れの中で、GPUの巨人NVIDIAが驚くべき一手を打った。同社は最新のAI向け高性能コンピューティングプラットフォーム「Blackwell」の設計を、オープンハードウェアエコシステムであるOpen Compute Project(OCP)に提供すると発表したのだ。この動きは、AIインフラの標準化と革新を加速させる可能性を秘めている。
NVIDIAがBlackwell設計をOCPに提供:AIインフラ革新の幕開けとなるか
NVIDIAは2024年10月15日から17日にかけてサンノゼで開催されたOCP Global Summitにおいて、同社のBlackwellアクセラレーテッドコンピューティングプラットフォームの設計の主要部分をOCPコミュニティに共有すると発表した。共有される設計には、NVIDIA GB200 NVL72システムの電気機械設計の重要な要素が含まれている。
具体的には、ラックアーキテクチャ、コンピュートおよびスイッチトレイの機械設計、液冷および熱環境仕様、そしてNVIDIA NVLinkケーブルカートリッジの体積測定が公開される。これらの設計情報は、より高い計算密度とネットワーク帯域幅を支援することを目的としている。
NVIDIAのこの動きは、オープンで効率的かつスケーラブルなデータセンター技術の開発を促進することを目指している。同社はこれまでも、NVIDIA HGX H100ベースボード設計仕様など、複数のハードウェア世代にわたってOCPに公式な貢献をしてきた。今回の貢献により、世界中のコンピューターメーカーがより幅広い選択肢を提供し、AIの採用を拡大することが期待される。
NVIDIAの創業者兼CEOであるJensen Huang氏は、この戦略的決定について次のように述べている。「OCPとの10年にわたる協力関係を基盤に、NVIDIAは業界のリーダーたちと協力して、データセンター全体で広く採用できる仕様と設計を形作っています。オープンスタンダードを推進することで、世界中の組織がアクセラレーテッドコンピューティングの可能性を最大限に活用し、未来のAIファクトリーを創造するのを支援しています」。
この発言からは、NVIDIAが単なる技術提供を超えて、AIインフラの未来を形作る上で主導的な役割を果たそうとする野心が読み取れる。同社は、オープンスタンダードの推進を通じて、自社技術の普及と業界全体の発展を同時に狙っているようだ。
GB200 NVL72システム:次世代AIインフラの青写真
NVIDIAが公開するGB200 NVL72システムは、次世代のAIワークロードに対応するために設計された革新的なプラットフォームだ。このシステムは、NVIDIA MGXモジュラーアーキテクチャに基づいており、コンピューターメーカーが迅速かつコスト効率よく多様なデータセンターインフラ設計を構築することを可能にする。
GB200 NVL72の特筆すべき点は、その圧倒的な性能と効率性にある。このシステムは、液冷方式を採用し、36個のNVIDIA Grace CPUと72個のNVIDIA Blackwell GPUをラックスケールで接続している。72個のGPUがNVIDIA NVLinkドメインで結ばれることで、システム全体が単一の巨大GPUとして機能する。これにより、NVIDIA H100 Tensor Core GPUと比較して、リアルタイムの1兆パラメーターの大規模言語モデル推論を30倍高速化できるという。
さらに、GB200 NVL72は電力効率の面でも大きな進歩を遂げている。NVIDIAによれば、前世代のH100 Tensor Core GPUと比較して25倍のエネルギー効率を実現しているという。これは、大規模AIモデルの運用コストを大幅に削減する可能性を秘めている。
システムの物理的な設計も、高密度コンピューティングの要求に応えるべく最適化されている。NVIDIAは、密集したインフラに対応するため、ラックに100ポンド(約45kg)の鋼鉄補強を追加し、クイックリリース式の配管とケーブル配線を開発した。NVLinkスパインは強化され、最大5,000本の銅ケーブルを保持し、現在のラック設計の2倍以上となる120kWの電力を供給できる。
NVIDIAのGPUプロダクトマーケティングディレクターであるShar Narasimhan氏は、この設計の重要性を次のように説明している。「過去5年間で、AIモデルの複雑さが20,000倍以上に増加しました。また、より豊かで大規模なデータセットを使用するようになっています。」この複雑性の爆発的な増加に対応するため、NVIDIAは高速インターコネクトで結ばれたGPUクラスター全体でモデルをシャーディング(分割)するシステム設計を採用した。
GB200 NVL72では、各GPUが1.8テラバイト/秒のインターコネクトを介して他のすべてのGPUに直接アクセスできる。「これにより、これらすべてのGPUが単一の統合GPUとして機能することが可能になります」とNarasimhan氏は述べている。
この設計は、以前のHGX H200ベースボードで可能だった最大8個のGPUの接続を大きく超え、72個のBlackwell GPUを900ギガビット/秒から1.8テラバイト/秒へと36倍高速な通信速度で接続することを可能にした。これは、前世代のイーサネット規格の高性能版と比較して驚異的な進歩だ。
Spectrum-X:OCPスタンダードへの対応拡大
NVIDIAは、Blackwell設計の公開だけでなく、同社のSpectrum-XイーサネットネットワーキングプラットフォームにおけるOCPスタンダードへの対応も拡大している。これにより、OCP認定機器を導入するAIファクトリーが、その性能ポテンシャルを最大限に引き出しつつ、既存の投資を維持しソフトウェアの一貫性を保つことが可能になる。
Spectrum-Xは、AIワークロード、特にデータセンター環境向けに構築されたイーサネットネットワーキングプラットフォームだ。このプラットフォームは、NVIDIA Spectrum-4イーサネットスイッチとBlueField-3データ処理ユニットを組み合わせることで、低レイテンシ、高スループット、効率的なネットワークアーキテクチャを実現している。
今回の発表で、Spectrum-XがOCPのSwitch Abstraction Interface(SAI)とSoftware for Open Networking in the Cloud(SONiC)スタンダードをサポートすることが明らかになった。SAIは、ネットワークオペレーティングシステムがネットワークスイッチハードウェアとどのように相互作用するかを標準化するものだ。一方、SONiCは、クラウドインフラストラクチャ事業者、データセンター、ネットワーク管理者を対象とした、ハードウェア非依存のネットワークソフトウェアレイヤーだ。
NVIDIAによれば、顧客はSpectrum-Xのアダプティブルーティングとテレメトリベースの輻輳制御を使用して、スケールアウトAIインフラストラクチャのイーサネットパフォーマンスを加速できるという。これは、大規模AIワークロードの効率的な処理に不可欠な要素となるだろう。
さらに、次世代のNVIDIA ConnectX-8 SuperNICも発表された。このネットワークインターフェースカードは、最大800Gb/sの加速されたネットワーキングと、大規模AIワークロード向けに最適化されたプログラマブルなパケット処理エンジンを特徴としている。OCP 3.0向けのConnectX-8 SuperNICは来年に利用可能となる予定で、組織が高度に柔軟なネットワークを構築することを可能にする。
これらの進展は、NVIDIAがAIインフラストラクチャの全レイヤーにわたって影響力を拡大しようとしている証左だ。同社は、GPUだけでなく、それらを効率的に接続し、最大限の性能を引き出すためのネットワーキングソリューションまでを提供することで、AIエコシステム全体をコントロールしようとしているように見える。
業界への影響と協力企業の動向
NVIDIAのBlackwell設計公開とSpectrum-Xのスタンダード対応拡大は、AI業界全体に大きな影響を与える可能性がある。この動きは、単にNVIDIAの技術を広めるだけでなく、AIインフラストラクチャの標準化と革新を加速させる触媒となりそうだ。
業界の反応は概ね肯定的だ。特に注目すべきは、OCPの創設者であるMetaの動きだ。Metaは、GB200 NVL72に基づいたCatalina AIラックアーキテクチャをOCPに提供する計画を明らかにしている。これにより、コンピューターメーカーは高い計算密度を持つシステムを柔軟に構築し、データセンターの増大する性能とエネルギー効率のニーズに応えることができるようになる。
Metaのエンジニアリング担当副社長であるYee Jiun Song氏は、次のようにコメントしている。「NVIDIAは長年にわたってオープンコンピューティング標準に大きく貢献してきました。彼らの高性能コンピューティングプラットフォームは、過去2年間、我々のGrand Tetonサーバーの基盤となってきました。大規模AIの計算需要の増加に対応するにあたり、NVIDIAのラック設計とモジュラーアーキテクチャに関する最新の貢献は、業界全体でAIインフラストラクチャの開発と実装を加速させるでしょう」。
また、NVIDIAは40以上のグローバル電子機器メーカーと密接に協力し、AIファクトリーを創造するための重要なコンポーネントを提供している。この広範なパートナーシップは、Blackwellプラットフォーム上でイノベーションを起こし、構築を行う企業の多様性を示している。
さらに、NVIDIAはVertivとの共同で、GB200 NVL72の新しい共同リファレンスデザインを導入した。Vertivは高密度コンピュートデータセンターに関する専門知識で知られる電源・冷却ソリューションのリーディングカンパニーだ。この新しいリファレンスデザインにより、クラウドサービスプロバイダー(CSP)やデータセンターがNVIDIA Blackwellプラットフォームを採用する際のデプロイメント時間が短縮されると期待されている。
このリファレンスアーキテクチャを使用することで、データセンターはGB200 NVL72に特化したカスタム電源、冷却、またはスペース設計を作成する必要がなくなる。代わりに、Vertivの先進的なソリューションを利用して、省スペースの電力管理とエネルギー効率の高い冷却を実現できる。NVIDIAによれば、このアプローチにより、7MWのGB200 NVL72クラスターのグローバル展開が最大50%速くなる可能性があるという。
一方、NVIDIAの動きに対抗する動きも見られる。例えば、Arm Holdingsは、Samsung Electronics、AD Technologies、韓国のスタートアップRebellionsとの協力を発表し、クラウド、HPC、AI/機械学習のトレーニングと推論を対象としたAI CPUチップレットプラットフォームの開発を進めている。
この協力関係では、RebellionsのRebel AIアクセラレーターと、ADテクノロジーのNeoverse CSS V3パワードコンピュートチップレットを組み合わせ、SamsungファウンドリーのGate-All-Aroundの2nmの先進プロセス技術で実装するという。各社は、このチップレットが生成AIワークロードを実行する際、競合アーキテクチャの2〜3倍のパフォーマンスと電力効率を提供すると主張している。
これらの動きは、AIインフラストラクチャ市場が急速に発展し、競争が激化していることを示している。NVIDIAの戦略は、オープンスタンダードを推進しつつも、自社技術の普及を図るという巧妙なものだ。しかし、競合他社も黙って見ているわけではなく、独自の強みを活かした戦略を展開している。
NVIDIAの戦略的意図
NVIDIAがBlackwell設計をOCPに提供し、Spectrum-XのOCPスタンダード対応を拡大した背景には、明確な戦略的意図が見て取れる。
第一に、AIインフラストラクチャ市場におけるリーダーシップの強化だ。NVIDIAは、自社の最新技術を広く公開することで、業界標準の形成に大きな影響力を持とうとしている。これにより、他社がNVIDIAの技術を基盤として採用せざるを得なくなる状況を作り出そうとしているのだ。
第二に、エコシステムの拡大と強化がある。NVIDIAの技術を基にした製品やサービスが増えれば増えるほど、NVIDIAのプラットフォームの価値は高まる。これは、典型的なネットワーク効果を狙った戦略と言える。
第三に、潜在的な規制リスクへの対応だ。独占的な地位を築きつつあるNVIDIAにとって、オープン性を示すことは、反トラスト法的な観点からも重要になってきている。
この戦略が市場に与える影響は多岐にわたる。まず、AIインフラストラクチャの標準化が進むことで、開発速度が加速する可能性が高い。また、NVIDIAの技術を基盤とした多様な製品やサービスが生まれることで、AIの応用範囲が更に広がるだろう。
一方で、NVIDIAの影響力が強まることへの懸念も存在する。例えば、他の半導体メーカーやAIチップ開発企業にとっては、NVIDIAの技術が事実上の標準となることで、競争環境が厳しくなる可能性がある。
また、データセンター事業者や大規模テクノロジー企業にとっても、NVIDIAへの依存度が高まることへの警戒感があるだろう。これは、ArmやRebellionsのような企業が独自の AI 向けチップ開発を進める背景ともなっている。
総じて、NVIDIAの今回の動きは、AIインフラストラクチャ市場を大きく変える可能性を秘めている。オープン性と標準化の推進は、業界全体の発展を促す一方で、NVIDIAの市場支配力を更に強化する結果となるかもしれない。今後、競合他社や規制当局の動向も含めて、この分野の展開を注視する必要があるだろう。
Sources
コメント