Huaweiが発表したAIシステム「CloudMatrix 384」は、NVIDIAの最新鋭「GB200 NVL72」に対抗する中国国産ソリューションとして注目されている。個々のチップ性能ではNVIDIAに劣るものの、384基の「Ascend 910C」チップを連携させるシステム全体の設計思想により、特定の性能指標においてNVIDIAシステムを凌駕する可能性を秘めているという。専門家はこれを「チップ単体では1世代遅れているが、スケールアップソリューションでは1世代進んでいる」と評価しており、AI基盤技術における米中競争の新たな局面を示唆している。
システム性能 vs チップ性能:HuaweiとNVIDIAの対比
Huaweiが開発したCloudMatrix 384(CM384)は、同社のAscend 910Cチップを384個も搭載したAIクラスターだ。このシステムの最大の特徴は「オールトゥオール」トポロジー構成を採用していることにある。一般的なネットワーク構成では、データは複数のノードを経由して目的地に到達するが、オールトゥオールトポロジーでは各チップが他のすべてのチップと直接通信できる。この構成により、従来のネットワークでは避けられなかった遅延やボトルネックが大幅に削減される。CM384 とNVIDIA GB200 NVL72 (以下、GB200) は、この点で異なるアプローチを採用している。
CM384は約300PFLOPS(1秒間に300京回の浮動小数点演算)のBF16演算性能を実現している。これは、NVIDIAのGB200 NVL72システムが提供する性能の約1.7倍に相当する驚異的な数字だ。また、総メモリ容量もNVIDIA製品の3.6倍、メモリバンド幅は2.1倍を誇る。
「これだけの規模のシステムを構築するのは並大抵のことではない」とSemiAnalysisは報告している。システムアーキテクチャとしては、CM384は合計16ラックに分散配置されている。そのうち12ラックがコンピューティングラック(各ラックに32個のGPUを搭載)、残りの4ラックはスケールアップスイッチ用だ。
システム全体では、6,912個もの400G LPO(Linear Pluggable Optics)光トランシーバーが使用されており、これがスケールアップネットワークの大部分を構成している。この膨大な数の光トランシーバーは、NVIDIAが2022年に発表しながらも「価格が法外に高く、電力を大量に消費し、光トランシーバーの信頼性の問題で実用化しなかった」DGX H100 NVL256「Ranger」プラットフォームを彷彿とさせる。
チップVSシステム —個別性能と総合力の比較
チップ単体の性能比較では、NVIDIA GB200が圧倒的に優位だ。具体的には、BF16演算で約2,500TFLOPSという驚異的な性能を発揮し、これはHuawei Ascend 910Cの780TFLOPSの約3.2倍に相当する。例えるなら、F1レースカーとファミリーカーの差に近い。
オンチップメモリも192GBとAscend 910Cの128GBを上回り、メモリバンド幅も8TB/sと、Ascendの3.2TB/sの2.5倍である。このように、単体のパワーと効率性においては、NVIDIAが圧倒的なアドバンテージを持っているのだ。
しかし、システム全体の性能になると状況は一変する。Huawei CloudMatrix CM384は、総合PFLOPS性能で1.7倍、総HBMメモリ容量で3.6倍、GPUとそれに関連するバンド幅ではNVIDIA NVL72クラスターの5倍以上を実現している。
これは、単一の優れたGPUを少数使うNVIDIAのアプローチと、性能は劣るがより多くのGPUを使用するHuaweiのアプローチの違いを鮮明に示している。例えるなら、少数の熟練職人と多数の一般作業者のどちらが生産性が高いかという問いに似ている。複雑な少量生産には前者が、シンプルだが大量生産には後者が適しているのだ。
効率性と単一チップの最大性能が重視される環境ではNVIDIAのソリューションが適しているが、総スループットや相互接続速度が重要となる大規模AIスーパークラスターの構築では、Huaweiのソリューションが理にかなっていると言えるだろう。
特に、CM384のオールトゥオールトポロジーは、大規模なAIトレーニングと推論に最適だ。これは、AlphaGoのような複雑なAIシステムや、最新の大規模言語モデル(LLM)のトレーニングにおいて重要な意味を持つ。
電力効率の課題と中国の対応
CM384の大きな課題は、その電力消費だ。単一のGB200 NVL72が約145kWの電力を消費するのに対し、Huawei CloudMatrix 384は約560kWもの電力を必要とする。これは一般的な家庭用電力消費の500倍以上に相当する驚異的な数字だ。
効率性の観点では、FLOP当たりの電力効率が2.3倍悪く、メモリバンド幅当たりの電力効率が1.8倍悪い。
しかし、この大きな電力消費は、中国のコンテキストでは重大な制約要因とはならない。西側諸国が過去10年間でよりクリーンな天然ガスや再生可能エネルギーへの移行と、より効率的なエネルギー使用に投資してきたのに対し、中国は生活水準の向上と継続的な大規模投資により、膨大な電力需要と供給能力を生み出している。
「中国はすでに太陽光、水力、風力の最大の導入基盤を持ち、原子力発電の導入においてもリーダーとなっている」とSemiAnalysisは報告している。「単純に言えば、中国は過去約10年間で米国全体のグリッド容量に相当する発電能力を追加しており、電力の制約よりもシリコン(半導体チップ)の制約の方が重要な問題となっている」。
この豊富な電力供給を背景に、Huaweiは電力密度よりもスケールアップを優先する設計アプローチを選択した。CM384の設計はラックの外部にあるシステムレベルの制約も考慮しており、「中国のAI野心を制限するのは相対的な電力可用性ではない」というSemiAnalysisの見解を裏付けている。中国においては、電力コストよりも技術的自立の価値の方が大きいのだ。
地政学的影響とサプライチェーンの現実
Huawei CloudMatrix 384の登場は、純粋な技術的進歩を超え、地政学的な意味合いも持つ。一般的な誤解としてHuaweiのAscend 910Cが完全に中国国内で製造されているとみなされがちだが、実際には多くの国際部品に依存している。
チップ設計は完全に中国国内で行われているが、生産プロセスは韓国のSamsungからのHBM(High Bandwidth Memory)、台湾TSMCの主要ウェハー、そして米国、オランダ、日本からの装置に大きく依存している。これは、完全な技術的自立はまだ達成されていないことを物語っている。
中国最大の半導体製造企業であるSMICは7nmプロセスを持っているものの、ほとんどのAscend 910Bと910CはTSMCの7nmで製造されているという事実がある。実際、米国政府やTechInsightsなどが入手したAscend 910Bと910Cは、すべてTSMCのダイを使用していた。
「Huaweiは別の企業であるSophgoを通じて約5億ドルの7nmウェーハーを購入することで、TSMCに対する制裁を回避した」とSemiAnalysisは報告している。「TSMCはこの明らかな制裁違反に対して10億ドルの罰金を科せられたが、これは彼らが得た利益の約2倍に過ぎない」。興味深いことに、HuaweiはTSMCから別の第三者企業を通じてウェハーを引き続き受け取っているという噂もあるが、この情報は確認されていない。
HBMについても中国は大きく依存している。中国のCXMTはまだ合理的な量の生産を開始するまで1年かかる状況で、Samsungが中国への主要供給元となっている。「Huaweiは輸出禁止前に合計1,300万個のHBMスタックを貯蔵でき、これは160万個のAscend 910Cパッケージに使用可能」だという。
しかし一方で、中国国内の半導体サプライチェーン能力は急速に向上しており、多くの専門家がその進歩を過小評価している。SMICは上海、深セン、北京で先進ノード容量を拡大しており、「今年は月間約5万枚のウェハー容量を持つ予定」とのことだ。
外国製工具への継続的なアクセスと効果的な制裁の欠如により、SMICは生産能力を拡大し続けている。歩留まりが向上すれば、Huawei Ascend 910Cの生産量は大幅に増加する可能性がある。
2024年と2025年にかけて、「TSMCは290万個のダイを提供しており、これは80万個のAscend 910Bと105万個のAscend 910Cに十分な量である」と報告されている。今後、HBM、ウェハー製造ツール、ツールサービス、フォトレジストなどの化学物質が効果的にコントロールされなければ、SMIC生産の能力は大幅に拡大する可能性がある。
AIインフラ競争の将来と業界への影響
CloudMatrix 384の登場は、AIインフラ競争の新たな局面を示唆している。現在、AIの進化速度は計算能力によって大きく左右されており、より多くの演算リソースを持つ企業や国がAI開発で優位に立つ可能性が高い。
Huaweiのアプローチは、単一チップの性能よりもシステム全体の設計と構成に焦点を当てている点で注目に値する。これは、今後のAIシステム設計において、「最高のチップを少数使う」か「やや性能の劣るチップを多数使う」かという二つの方向性を示している。
また、SMICが現在の7nmから更に進んだ製造プロセスに移行すれば、これらのシステムの効率も向上するだろう。製造プロセスの微細化により、同じ性能でより少ない電力で動作するチップが生産可能になるためだ。
業界全体への影響としては、大規模AIシステムの構築アプローチの多様化と、各国・各企業の技術的独立性確保への動きが加速する可能性がある。NVIDIAの市場支配は依然として強いが、Huaweiの例が示すように、異なるアプローチでも競争力のあるシステムが構築可能であることが証明された。
クラウドサービスプロバイダーやAI研究機関は、この二つのアプローチの優劣を自社のニーズに合わせて評価する必要があるだろう。効率性と単一チップの性能を重視するか、総スループットと拡張性を重視するかの選択が、今後の戦略を大きく左右する要素となる。
Source