NVIDIAの最新AIチップ「Blackwell」を搭載したサーバーラックで深刻な過熱問題が発生し、Microsoft、Google、Amazon、Metaなど主要顧客が注文を見直す事態となっている。The Informationの報道によると、各社が100億ドル規模で発注していた新型GB200ラックの受け取りを延期、一部では前世代の「Hopper」チップへの切り替えを検討しているという。
相次ぐ技術的問題が主要顧客の信頼揺るがす
新型Blackwellチップを搭載したサーバーラックの初期出荷分において、深刻な過熱問題とチップ間接続の不具合が明らかになているようだ。特に問題となっているのは、ラックあたり120-132kWという極めて高い消費電力密度だ。この強大な発熱量は従来の冷却システムの限界を大きく超えており、特に72個のチップを搭載した大規模構成では熱問題が顕著となっている。データセンター業界の標準的な冷却システムは、このような極端な発熱量を想定して設計されていないため、安定した運用が困難な状況に陥っているというのだ。
問題をさらに複雑にしているのが、TSMCの先進的なチップパッケージング技術「CoWoS」(Chip-on-Wafer-on-Substrate)の採用である。Blackwellチップは1つのパッケージに2つの大型GPUダイを統合する複雑な設計を特徴としており、この高度な設計が熱分布の不均一性を引き起こしているという。その結果、チップ上に局所的な高温域(ホットスポット)が発生し、これが安定性に深刻な影響を及ぼしているとされる。
NVIDIAはこれらの問題に対応するため、サプライヤーに対して複数回にわたるサーバーラック設計の修正を要請している。しかし、現状の課題を解決するには、こうした設計変更以上の対応が必要になるようだ。具体的には、チップレベルでの熱最適化、革新的な冷却技術の開発、そしてデータセンターのラックインフラ全体の再設計が求められている。これら複数の技術的課題が重なり合っていることが、問題解決をより困難なものにしている。
さらに、チップ間の相互接続における不具合も報告されている。高性能なAIワークロードの処理には複数のチップ間での効率的なデータ通信が不可欠だが、現在のBlackwell GB200ラックではこの点でも期待通りの性能を発揮できていないようだ。この接続の問題が、システム全体の処理能力を制限するだけでなく、さらなる発熱の原因にもなっている可能性がある。
顧客の対応分かれる中、株価に影響
こうした問題を受けて、いわゆる「ハイパースケーラー」と呼ばれる、NVIDIA GPUの大口顧客達の対応に注目が集まる。大口顧客の一社であるMicrosoftは当初、アリゾナ州フェニックスのデータセンターに少なくとも50,000個のBlackwellチップを導入する大規模な計画を立てていた。これは同社のAI事業戦略の要となる施策だった。しかし技術的な問題が発覚したことで、この野心的な計画は見直しを迫られることとなった。
特に興味深いのは、Microsoftの重要パートナーであるOpenAIの動きである。OpenAIはBlackwellの熱問題発生を受けて、新型BlackwellチップではなくNVIDIA前世代の「Hopper」アーキテクチャのチップへの切り替えをMicrosoftに要請。この判断からは、AIワークロードの安定性を重視するOpenAIの実務的なアプローチが読み取れる。実績のある技術を選択することで、開発スケジュールへの影響を最小限に抑えようとする意図だろう。
Amazon Web Services、Google、Metaといった他の主要顧客も、それぞれ独自の対応を進めている。これらの企業は当初、それぞれ100億ドル規模でBlackwell GB200ラックを発注していた。しかし現在は、発注規模の見直しや納期の延期を検討している。ただし各社とも、既存のAIインフラ戦略全体を見直すまでには至っておらず、あくまで一時的な調整という位置づけのようだ。
The Informationの報道では、これらの「問題のある」GB200サーバーラックについて、他の購入者が現れる可能性も指摘されており、NVIDIAの売上にネガティブな影響を与える可能性については不透明だという。
NVIDIAのJensen Huang CEOは昨年11月の時点で、第4四半期においてBlackwellチップから数十億ドル規模の収益を見込むと発言していた。現時点で、この目標がどの程度影響を受けるかは不透明だ。同社はこれまで、72個の新型チップを搭載した液冷式サーバーでの過熱問題に関する報道を否定してきた。しかし今回の大口顧客による発注調整は、技術的な課題が当初の想定以上に深刻である可能性を示唆している。
この状況は、半導体業界における製品開発と市場投入のタイミングの難しさを浮き彫りにしている。新技術の導入には常にリスクが伴うが、特にAI分野では開発速度と信頼性のバランスが極めて重要となる。NVIDIAと顧客企業は現在、この微妙なバランスの最適点を模索している最中だと言えるだろう。
Source
- The Information: Nvidia’s Top Customers Face Delays From Glitchy AI Chip Racks
コメント