NVIDIAとxAIは、テネシー州メンフィスに設置されているAIスーパーコンピューター「Colossus」の計算能力を2倍に拡張すると発表した。現在の10万基のNVIDIA Hopper GPUに加えて、新たに10万基のH100/H200 GPUを追加する計画である。
また、Serve The Homeは巨大コンピューター内の Supermicro サーバーへのアクセスを許可され、その驚嘆すべきAIスーパーコンピューターの内部の詳細を明らかにしている。
世界最大規模のGPUクラスターが更なる進化へ
Colossusは、これまで米国で最高性能を誇るスーパーコンピューターである「Frontier」(約3.8万基のAMD MI250X搭載)の2.5倍以上のGPU数を誇る。システムのピーク性能は、FP/BF16精度で98.9エクサFLOPSを実現しており、スパース演算を活用した場合は2倍、さらにFP8精度での学習時には395エクサFLOPSまで到達する可能性がある。
画期的なイーサネット採用による高効率なネットワーク構成
注目すべき技術的特徴として、Colossusは一般的なAI学習クラスターで採用されているInfiniBandではなく、NVIDIA Spectrum-Xイーサネットファブリックを採用している点が挙げられる。各GPUには400GbEのNVIDIA BlueField-3 SuperNICが装備され、64ポートの800Gbpsイーサネットスイッチ「Spectrum-X SN5600」と組み合わせることで、95%のデータスループットを維持している。
NVIDIAのネットワーキング部門上級副社長であるGilad Shainer氏は、「AIはミッションクリティカルとなりつつあり、より高いパフォーマンス、セキュリティ、スケーラビリティ、およびコスト効率が求められている」と述べ、Spectrum-Xプラットフォームの優位性を強調している。
69,677平方メートルの元Electrolux工場を活用したColossusは、わずか122日間で組み立てられ、2024年7月22日に稼働を開始した。NVIDIAのCEOであるJensen Huang氏は、通常4年かかるような規模のプロジェクトをわずか19日で稼働させた点を「超人的な偉業」と評価している。
初公開されたColossusの内部構造
また、今回Serve The Homeによる施設見学レポートで、これまで明らかにされていなかったColossusの詳細な構成が示された。
GPU サーバーの構成
- Supermicroの4Uユニバーサル液冷GPUシステムを採用
- 各サーバーにNVIDIA HGX H100を8基搭載
- ラック1台あたり8台のサーバーを設置(64 GPU/ラック)
- サーバー間に1Uのマニフォールドを配置し、液冷システムを構築
冷却・電源システム
- 各ラックの底部に冗長ポンプシステムとラック監視システムを備えたSupermicro 4Uユニットを設置
- サーバーごとに4基の冗長電源を装備
- ラック背面には3相電源供給システム、イーサネットスイッチ、ラックサイズのマニフォールドを配置
大規模クラスター構成
- 8ラックを1アレイとして構成(512 GPU/アレイ)
- 施設全体で約1,500のGPUラック(約200アレイ)を設置
ネットワークインフラ
- GPU1基あたり専用の400GbEネットワークインターフェースコントローラー(NIC)を装備
- サーバーごとに追加の400Gb NICを設置
- HGX H100サーバー1台あたり3.6Tbpsのイーサネット帯域を確保
電力安定化システム
- Tesla Megapackバッテリーを導入し、電力グリッドとスーパーコンピューター間のエネルギーバッファとして活用
- 各Megapackは最大3.9MWhの容量を保持
- ミリ秒単位の遅延に対応する電力供給の安定化を実現
このように、Colossusは単なるGPUの集合体ではなく、電力供給、冷却、ネットワーキングなど、各要素を緻密に設計・統合したシステムとして構築されていることが明らかになった。特に、従来のスーパーコンピューティング分野では一般的ではないイーサネットベースのネットワーク構成を採用しながら、高いパフォーマンスを実現している点は、今後のAIインフラストラクチャの設計に大きな影響を与える可能性がある。
なお、具体的な消費電力やポンプサイズなどの詳細情報については、NDAの制約により公開されていない。また、ストレージやCPUコンピュートサーバーについても、その詳細は限定的な開示に留まっているものの、Supermicroのシャーシを採用し、液冷システムを備えたx86プラットフォームCPUを搭載していることが確認されている。
Xenospectrum’s Take
Colossusの更に2倍の規模にも及ぶ拡張計画は、まさにAIインフラストラクチャの新時代を告げる物と言えるだろう。特に、従来のInfiniBandに代わるイーサネットの採用は、AI学習クラスターの設計パラダイムを根本から変える可能性を秘めている。
Serve The Homeのレポートが明らかにした内部構造は、電力供給、冷却、ネットワーキングなど、各要素を緻密に設計・統合したシステムとしてのColossusの実態を示している。この設計思想は、今後の大規模AIインフラストラクチャの基準となる可能性が高い。
一方で、ガス発電による電力供給や地域社会への影響に関する懸念、さらにはTeslaから私企業であるxAIへのGPU転用といった課題も指摘されている。Elon Musk氏が示唆する30万基規模への将来的な拡張に向けては、これらの社会的・技術的課題の解決が不可欠となるだろう。
このプロジェクトの成否は、大規模AIインフラストラクチャの未来を占う重要な指標となる。特に、従来型スーパーコンピューターが研究機関による共同利用を前提としているのに対し、Colossusは主にxAIの独自AI開発(Grok 3など)に特化している点は、AIインフラストラクチャの商業利用における新たなモデルケースとして注目される。
Source
コメント