テクノロジーと科学の最新の話題を毎日配信中!!

AMD、NVIDIA追撃へ本腰:AI覇権獲得へ「戦時体制」宣言

Y Kobayashi

2025年4月25日

AI(人工知能)開発競争が激化する中、AMDが長年のライバルであるNVIDIAの牙城を崩すべく、本腰を入れた取り組みを開始した。CEO Lisa Su氏の号令の下、ソフトウェアの抜本改革、開発者コミュニティとの連携強化、そして次世代ハードウェアへの大胆な投資を進める。これは単なる戦略変更ではなく、AMDの存亡をかけた「戦時体制」への移行と言えるだろう。

スポンサーリンク

緊急事態宣言:Lisa Su CEOが下した決断と「戦時体制」

変化の引き金となったのは、2024年12月にSemiAnalysisが公開したレポートであった。このレポートは、AMDのAI向けソフトウェアスイート「ROCm」について、「AIモデルのトレーニングを著しく困難にするバグが蔓延している」と厳しく指摘。ハードウェアの潜在能力は認めつつも、ソフトウェアの使い勝手の悪さが深刻な足かせとなっていると結論付けた

この指摘に対し、AMDのCEO Lisa Su氏の反応は迅速かつ真摯なものだった。SemiAnalysisによると、レポート公開から数時間以内にSu氏自ら連絡を取り、翌日早朝にはSemiAnalysisのエンジニアリングチームとAMD経営陣との間で詳細な議論の場が持たれたという。Su氏はこの場でROCmソフトウェアスタックにおける多くのギャップを認め、改善への強い意欲を表明。技術的な詳細について活発な質疑応答が行われたようだ。

このトップの姿勢転換は組織全体に波及。「AMDは今や戦時体制にある」とSemiAnalysisは表現する。ソフトウェアの課題に正面から向き合い、NVIDIAとの差を埋めるべく全力を挙げている。これは、2024年時点ではソフトウェアの問題を公に認めようとしなかったAMDの広報姿勢からの大きな転換だ。2025年に入り、AMDはソフトウェアのバグが多いことを認めつつ、急速な改善を進めていることを強調し、コミュニティとの対話を重視する姿勢を明確に打ち出している。

ソフトウェア改革の最前線:ROCm強化への道

AMDのNVIDIA追撃戦略の核心は、ソフトウェア「ROCm™」の抜本的な強化にある。CUDAという強力なソフトウェアエコシステムを持つNVIDIAに対し、AMDはこれまで大きく後れを取ってきた。しかし、Lisa Su氏の号令の下、状況は急速に変わりつつある。

バグ修正と安定性向上への注力

SemiAnalysisの指摘を受け、AMDはROCmのバグ修正と安定性向上を最優先課題としている。特に、AIモデル開発で広く使われるフレームワーク「PyTorch」との連携強化はその象徴だ。レポート公開前の2024年12月時点では、AMDの主力GPU「MI300X」はPyTorchのCI/CD(継続的インテグレーション/継続的デリバリー)プロセスに全く組み込まれていなかった。CI/CDは、ソフトウェアの変更が加えられるたびに自動でテストを行い、バグを早期に発見・修正するための重要な仕組みである。AMDはこの指摘を受け、MI300XをPyTorch CI/CDに追加。さらに、推論高速化ライブラリ「TorchInductor」のパフォーマンステストにもMI300を追加するなど、ソフトウェア品質向上のための具体的な取り組みを進めている。これは、NVIDIAでさえH100やB200をこのテストに提供していない点において、AMDが一歩リードした形だ。ただし、動的形状(Dynamic Shapes)におけるtorch.compileの成功率はNVIDIAの90%超に対しAMDは77%にとどまっており、改善の余地は大きい。

開発者重視戦略への転換

AMDは、CUDAの成功がNVIDIA内部の開発者だけでなく、400万人とも言われる外部の開発者コミュニティによって支えられていることをようやく理解した。2025年1月、AMDは専任の「デベロッパーリレーションズ(devrel)」機能を立ち上げ、AIソフトウェアの責任者であるAnush Elangovan氏が中心となって、技術系ソーシャルメディアやリアルイベントで開発者との直接対話を開始した。Elangovan氏は「開発者、開発者、開発者」という言葉を掲げ、開発者コミュニティの構築に注力する姿勢を明確にしている。

コミュニティクラウド構想

さらにAMDは、開発者がAMD製GPUに容易にアクセスできる「デベロッパー・クラウド」の立ち上げを計画している。これは、GoogleがTPU(Tensor Processing Unit)の普及のために提供した「TPU Research Cloud(TRC)」を参考にしたものだ。TRCは、研究者や開発者に無償または安価でTPUへのアクセスを提供し、多くのオープンソースプロジェクトや研究論文を生み出す原動力となった。AMDがこのクラウド構想に十分なリソースを投じ、アクセスを容易にすれば、ROCmエコシステムの拡大に大きく貢献する可能性がある。SemiAnalysisは、このクラウド上で「GPT-J」(TRC上でトレーニングされた有名なオープンソース大規模言語モデル)のような画期的な成果が生まれるかどうかが、成功の試金石になると指摘している。

スポンサーリンク

開発者エコシステムの構築:「CUDAの牙城」への挑戦

NVIDIA CUDAの強さは、単なるソフトウェアの性能だけではない。400万人の開発者、数千の企業、AIラボやスタートアップが織りなす巨大なエコシステムそのものにある。新しいアルゴリズムやツールはまずCUDA上で登場し、膨大なフィードバックループによって急速に洗練され、さらに多くの開発者を引きつけるという「自己強化型のフライホイール」が形成されているのだ。

例えば、高性能なアテンション計算カーネル、Tri Dao氏の「FlashAttention」や、状態空間モデル「Mamba」が登場した際、初期の最適化実装はCUDA向けに提供され、ROCmへの移植は数四半期遅れた。推論エンジン「vLLM」や「SGLang」も、まずCUDAでの安定化が優先され、その後にAMDの内部開発者の協力でROCmへ移植されるという流れが一般的だ。バグの発見と修正も、CUDAでは広範な開発者コミュニティによって迅速に行われる一方、ROCmでは発見が遅れるケースが少なくない。

この現状を打破すべく、AMDは「開発者第一主義」を掲げ、具体的な行動を起こしている。

DevRelチームの発足と活動

前述の通り、2025年1月にDevRelチームが発足。責任者のAnush Elangovan氏が孤軍奮闘に近い形で開発者とのエンゲージメントを進めているが、NVIDIAの布陣と比較するとまだ人員不足は否めない。SemiAnalysisは、NVIDIA GTCのような大規模開発者カンファレンスに対抗するためには、少なくとも20人以上の専任DevRelエンジニアによる、ハッカソンやミートアップの定期開催が必要だと提言している。

著名ハッカーへの実機提供

オープンソース活動で知られる著名ハッカー、George Hotz氏との一件は、AMDの姿勢変化を象徴する出来事だった。Hotz氏はAMD製GPU「MI300X」の実機提供を求めたが、AMDは当初クラウドアクセスでの提供を提示し、交渉は難航。この状況が公になると、PyTorchの共同開発者であるSoumith Chintala氏がHotz氏への実機提供を支持するツイートを行った。最終的にAMDは方針を転換し、MI300Xの実機をHotz氏に送付。これは、マーケティング費用では買えない「開発者重視」の姿勢を具体的に示す、大きな評判獲得の機会となった。

アカデミアへの支援

NVIDIA CEO Jensen Huang氏やIan Buck氏は長年、大学の研究室にGPUを寄贈するなど、アカデミアとの関係構築に力を入れてきた。SemiAnalysisは、AMDも同様に学術機関への物理的なGPU提供を行うべきだと推奨している。これは、将来の研究者や開発者を育成し、ROCmエコシステムを長期的に強化するための重要な投資となる。

Python対応の遅れとRCCLの課題:克服すべき技術的ギャップ

ソフトウェア開発の現場、特にAI分野において、Pythonは事実上の標準言語となっている。NVIDIAのCEO Jensen Huang氏はこの流れをいち早く察知し、CUDAエコシステム全体でPythonを「第一級市民」として扱えるようにすることを最優先課題の一つとしている。GTC 2025では、数値計算ライブラリ「nvmath-python」、CUDAカーネル開発のためのドメイン固有言語(DSL)である「cuTile」「Warp」「Triton」「CuTe Python」など、多数のPythonライブラリやツールが発表された。これにより、開発者はより少ない時間で高性能なGPUコードを作成したり、同じ時間でさらに高度な最適化を行ったりすることが可能になった。

一方、AMDのROCmにおけるPython対応は、NVIDIAに大きく遅れを取っている。推論ライブラリ「AITER」やカーネル開発DSL「Triton」のPythonインターフェースは提供されているものの、NVIDIAのようにスタックのあらゆる層で充実したPythonサポートが提供されている状況には程遠い。特に、GPUカーネルをPythonライクな言語で記述できるDSLの選択肢において、NVIDIAが「OAI Triton」「CuTe Python」「cuTile Python」「Numba」「Warp」など複数の選択肢を提供する一方、AMDは実験的な言語「wave」を持つものの、本格的な展開には至っていない。これは、開発者の生産性やROCmへの移行のしやすさに直結する深刻な問題である。OpenAI Tritonの主要メンテナーであるPhil Tilet氏は、Tritonの優先事項が必ずしも絶対的な最高性能ではないという姿勢を示しており、チップベンダーにとってはTriton以外の高性能Python DSLのサポートも重要になる。

集団通信ライブラリ RCCL vs NCCL

AIモデルのトレーニング、特に大規模モデルにおいては、複数のGPUが連携して計算を行う「集団通信」が不可欠となる。このためのライブラリとして、NVIDIAは「NCCL」を、AMDはNCCLのフォーク(派生版)である「RCCL」を提供している。SemiAnalysisの2024年12月の指摘以降、RCCLチームもMI300XにおけるLL128プロトコルのサポートや、ネットワーク効率を高めるRail Optimized Treesのサポートなど、一定の進捗を見せている。

しかし、NCCLも進化を続けており、その差はむしろ拡大しているとSemiAnalysisは指摘する。GTC 2025で発表されたNCCLの次期バージョン(2.27、2.28)では、大幅なリファクタリング(内部構造の整理・改善)が行われ、対称メモリ(Symmetric Memory)のネイティブサポート、より高速でGPUコア(SM)使用量の少ない新アルゴリズム、カスタム通信・計算融合カーネルを作成するためのデバイス側API、CPUを介さずにGPU間で直接通信制御を行うGPUDirect Async(IBGDA)のサポート(InfiniBandおよびRoCEv2 Ethernet対応)、ユーザーバッファ登録によるメモリ効率改善(5-20%のトレーニング性能向上)、デバッグ支援機能(ncclras)などが導入される予定だ。

RCCLがNCCLのフォークである以上、このNCCLの大規模な変更に追随するためには、AMDのエンジニアは膨大な時間を費やす必要があり、その間にもNVIDIAはさらに先へと進んでしまう。この構造的な問題から、AMDはRCCLをゼロから書き直す計画を検討しているとされる。SemiAnalysisはGTC 2025の講演でNCCLチーフのSylvain Jeaugey氏にRCCLへの協力について尋ねたが、「我々はその開発には関与しない」と否定的な回答を得ている。RCCLチームには、少なくとも1,024基のMI300クラスGPUからなる専用の永続的なクラスターへのアクセス権と、エンジニアの報酬(特にRSU)の大幅な引き上げが必要だとSemiAnalysisは強く提言している。

ハードウェア戦略:MI355Xの現状と次世代MI450Xへの期待

AMDはソフトウェア面での課題を抱えつつも、ハードウェア開発の手を緩めてはいない。しかし、製品投入のタイミングがNVIDIAの次世代製品と重なるなど、厳しい競争環境に置かれている。

MI325XとMI355Xの市場評価

MI325Xは、NVIDIAのH200の対抗製品として期待されたが、出荷開始がNVIDIAの次世代機Blackwell(B200)の量産時期と重なった(2025年第2四半期)。その結果、性能対コストで優位とされるBlackwellに顧客の関心が集まり、MI325Xの販売は限定的となった。

後継のMI355Xについては、OpenAI(Oracle経由)など一部の大口顧客からの関心は回復しつつあるものの、依然としてMicrosoftのような主要顧客の獲得には至っていない。MI355Xは、NVIDIAのフラッグシップであるラック規模ソリューション「GB200 NVL72」(GPU 72基構成)と直接競合するには、単一ノードあたりのGPU数(8基)で劣る。そのためAMDは、MI355XをNVIDIAの空冷HGXプラットフォーム(HGX B200 NVL8やHGX B300 NVL16)の対抗馬として位置付けている。中小規模のモデルや、大規模なスケールアップを必要としない推論タスクにおいては、価格設定次第でTCO(総所有コスト)あたりの性能で競争力を発揮できる可能性がある。しかし、最先端の推論や大規模MoE(混合エキスパート)モデルなど、大規模なGPUクラスターを必要とする分野では、依然としてGB200 NVL72が優位と見られている。

次世代への布石:MI450Xとラック規模ソリューション

AMDがNVIDIAに本格的に対抗するための鍵となると期待されているのが、2026年後半に投入予定の「MI450X」シリーズである。MI450Xは、NVIDIAのさらに次世代にあたる「VR200 NVL144」に対抗することを目指しており、GPU 64基または128基を「Infinity Fabric over Ethernet」と呼ばれる技術で接続した、AMD独自のラック規模ソリューションとして提供される計画だ。これはNVIDIAのNVLinkおよびInfiniBand/Ethernetによる大規模接続戦略に対抗するものであり、実現すればAMDにとって大きな前進となる。この計画を支えるため、AMDは2025年3月にシステムビルダーのZT Systemsを買収した。ZT Systemsは、ラック規模アーキテクチャの設計・製造能力を提供すると期待されている。

克服すべき深刻な課題:人材獲得競争と開発インフラの脆弱性

AMDがNVIDIAに追いつき、追い越すためには、ソフトウェアとハードウェアの開発を加速させる必要がある。しかし、その実現には二つの大きな障壁が存在する。

1. AIソフトウェアエンジニアの報酬問題:「経営陣の死角」

SemiAnalysisは、AMDのAIソフトウェアエンジニアに対する報酬が、競合他社(NVIDIA、Tesla Dojo、OpenAI Chip Team、Google TPU、xAIなど)と比較して著しく低いことが、トップタレントの獲得と維持における最大の障害になっていると厳しく指摘している。優秀なエンジニアは、技術的な挑戦や企業文化だけでなく、報酬も重要な判断材料とする。特にAI分野では人材獲得競争が激しく、報酬の見劣りは致命的となり得る。

問題の根源は、AMDが自社の報酬体系を比較する際に、ソフトウェア開発で評価の高い企業ではなく、従来の半導体企業(Juniper Networks、Cisco、ARMなど)をベンチマークとしている点にあるとSemiAnalysisは分析する。これにより、経営陣は自社の報酬が競争力を持っていると誤認している可能性がある。PyTorchや集団通信(RCCL/NCCL)など、特定の分野でNVIDIAとAMDの同等の役割のエンジニアを比較すると、報酬格差は歴然としているという。

SemiAnalysisは、AMDが基本給は維持しつつ、RSU(譲渡制限付株式ユニット)を大幅に増額することで、エンジニアの報酬を会社の成長とより強く連動させるべきだと提言している。50億ドル以上の現金を保有するAMDには、この戦略的投資を行う財務的な余裕はあるはずだ。「もしAMDがAIソフトウェアエンジニアの給与を大幅に引き上げなければ、AMDはNVIDIAに負け続けるだろう」とSemiAnalysisは警鐘を鳴らす。これはAMD経営陣にとって「死角」となっている最重要課題の一つである。

2. 開発用GPUクラスターの不足

革新的なソフトウェアやハードウェアを開発するためには、大規模なGPUクラスター環境が不可欠だ。しかし、AMDが利用できる開発用GPUの総数は、NVIDIAの20分の1にも満たないとSemiAnalysisは推定している。AMDは現在、クラウドサービスプロバイダー(CSP)から合計約8,000基のMI300 GPUをレンタルしているとされるが、安定的に利用できるのは3,000~4,000基程度と見られている。単一ノードでの開発は可能でも、複数ノードやクラスター規模での開発・テスト環境は依然として制約が大きい。特に、推論における分散処理(Disaggregated Prefill)のような最新技術の開発には、クラスター規模のリソースが不可欠となっている。

さらに問題なのは、AMDがこれらの開発用クラスターを、主に1年未満の短期契約で調達している点だ。これは、NVIDIAが複数年にわたる永続的なクラスターを自社運用・レンタルし、エンジニアが財務担当者の目を気にせず長期的な視点でリスクの高いプロジェクトにも挑戦できる環境を構築しているのと対照的である。AMDの短期的な調達モデルは、GPU時間あたりのコスト意識を過度に高め、探索的な研究開発や長期的な戦略投資を抑制してしまう。「四半期ごとの収益に対する短期的な焦点が、長期的な競争力を損なっている」とSemiAnalysisは指摘する。

SemiAnalysisは、AMDに対し、現在の短期的な調達モデルから脱却し、10,000基以上のフラッグシップGPUからなる大規模クラスターを複数年契約で確保するよう強く推奨している。これは、開発能力を向上させるだけでなく、顧客に対してAMDが各GPU世代を長期的にサポートするというコミットメントを示す上でも重要である。

AMDの挑戦は始まったばかり

AMDは、SemiAnalysisの厳しい指摘を真摯に受け止め、NVIDIA追撃に向けて「戦時体制」とも言える抜本的な改革に乗り出した。ソフトウェア(ROCm)の品質向上、開発者コミュニティとの連携強化、次世代ハードウェア(MI450X)への期待、そしてZT Systemsの買収による垂直統合の動きなど、多くの前向きな変化が見られる。

しかし、その道のりは決して平坦ではない。NVIDIA CUDAエコシステムの牙城は高く、Python対応や集団通信ライブラリ(RCCL)における技術的な遅れは深刻だ。そして何よりも、AIソフトウェア人材に対する報酬問題と、開発インフラの脆弱性という根本的な課題を克服しなければ、NVIDIAとの差を縮めることは難しいだろう。

Lisa Su CEOのリーダーシップの下、AMDがこれらの課題に正面から向き合い、投資を継続し、改革のスピードを維持できるか。AI時代の覇権争いにおいて、AMDの「第二章」が成功するかどうかは、まさにこれから数年間の取り組みにかかっている。業界は固唾を飲んでその動向を見守っている。


Sources

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする