NVIDIAの次世代AI処理用GPU「Blackwell」において、サーバーラックでの実装時に深刻な発熱問題が発生していることが報じられた。The Informationの報道によると、最大72枚のチップを搭載できるように設計されたサーバーラック内で過度な発熱が確認され、データセンターの稼働開始スケジュールに影響を与える可能性が指摘されている。
発熱問題の詳細と対応状況
The Informationによると、NVIDIAは現在、サプライヤーに対してラック設計の変更を複数回要請している状況だという。この問題は、主要顧客であるMeta Platforms、Google、Microsoftなど大手クラウドプロバイダーにBlackwellサーバーを予定通り導入できるかどうかという懸念を生じさせており、大手クラウドプロバイダーのデータセンター展開計画に影響を及ぼす可能性がある。
NVIDIAが3月に発表したBlackwellチップは、同社の半導体設計における野心的な挑戦を体現している製品だ。その核心的な特徴は、前世代製品と同等サイズのシリコンダイを2つ統合し、単一のコンポーネントとして機能させる革新的なアーキテクチャにある。この設計アプローチにより、特にAIチャットボットの応答生成といった大規模言語モデル処理において、前世代比で30倍という劇的な性能向上を実現している。
しかし、この高度な統合設計は、熱密度の著しい上昇という技術的代償を伴っているようだ。当初第2四半期に予定されていた出荷時期の延期を余儀なくされている背景には、この熱処理の課題が大きく影響している。The Informationの取材に答えた事情に詳しい関係者によると、NVIDIAのAIおよびHPC向けBlackwell GPUは、72個のプロセッサを搭載したサーバーで使用すると過熱するというのだ。これらの問題により、NVIDIA はサーバー ラックの設計を何度も再評価することになった。過熱により GPU のパフォーマンスが制限され、コンポーネントが損傷するリスクがあるためだ。
NVIDIAは、過熱問題に対処するため、ラックにいくつかの設計変更を加えるようサプライヤーに指示したと伝えられている。 同社はサプライヤーやパートナーと緊密に協力し、サーバー冷却を改善するためのエンジニアリングの修正を行った。
NVIDIAの広報担当者は「主要クラウドサービスプロバイダーとエンジニアリングチームの不可欠な一部として協力している」と述べ、「エンジニアリングの反復は正常かつ想定内のプロセスである」と説明している。
高性能化と発熱の関係は半導体設計における古典的なジレンマだが、Blackwellの場合、その革新的な設計思想ゆえに、従来の冷却手法やサーバーラック設計では十分な対応ができていない可能性が示唆されている。
Source
- The Information: Nvidia Customers Worry About Snag With New AI Chip Servers
コメント