最新の調査で、AMDのAI向けチップMI300Xが優れたハードウェア性能を持ちながら、ソフトウェアの深刻な問題により実用性で大きく劣ることが明らかになった。SemiAnalysisによる5ヶ月にわたる詳細な調査は、NVIDIAが築き上げた「CUDAの堀」の深さを如実に示している。
ハードウェアの優位性が活かされない現実
AMDのInstinct MI300Xは、FP16演算で1,307テラFLOPS、192GBのHBM3メモリを搭載し、NVIDIAのH100(989テラFLOPS、80GBメモリ)を理論値で上回る。さらに、システム全体のコストも40%低く抑えられる利点がある。
しかし、SemiAnalysisの調査によると、これらの優位性は実践では殆ど意味を持たない。調査チームは「単にメガピクセル数だけでカメラを比較するようなもの」と指摘し、実用性における致命的な問題を明らかにした。
SemiAnalysisによると、実際の運用ではAMDは深刻なソフトウェアの問題に直面しているとのことだ。AIモデルのトレーニングに必要な基本機能でさえ、大規模なデバッグなしには実行不可能な状況だという。
深刻なソフトウェアの課題
NVIDIAは新機能、ライブラリ、パフォーマンス更新を継続的にリリースし、ソフトウェア面での優位性を着実に強化している。対照的に、AMDのROCmソフトウェアスタックは、品質保証の不足や使い勝手の悪さが指摘されている。
調査で最も顕著だったのは、AMDのソフトウェアスタックにおける品質保証の欠如だ。ベンチマークテストを実施するだけでも、AMDのエンジニアチームの直接的な介入が必要となった。
特に注目すべき事例として、AMDの最大のGPUクラウドプロバイダーであるTensorwaveは、自社が購入したGPUをAMDのエンジニアに無償で提供し、ソフトウェアの問題解決に当たらせる必要があった。これは、ソフトウェア開発環境の整備が著しく遅れている証左といえる。
これらの問題は、単なる技術的な課題を超えて、AMDのソフトウェア開発に対する組織的なアプローチの再考が必要であることを示唆している。調査チームは「使いやすい初期環境の実現」を最優先課題として挙げており、この基本的な要件すら満たせていない現状は、AIチップ市場におけるAMDの競争力に重大な影響を及ぼしている。
Source
コメント