AWSは年次カンファレンスre:Inventにおいて、AI向けカスタムチップの次世代製品となるTrainium3を発表すると同時に、現行モデルTrainium2の一般提供を開始すると発表した。大規模言語モデル(LLM)のトレーニングと推論に特化した同チップは、クラウドベースのAIワークロードの高速化を実現する。
Trainium2が一般提供へ、業界最高水準の性能を実現
AWS が一般提供を開始したTrainium2は、TSMCの5nmプロセスで製造された2つの計算ダイと4つの24GB HBMスタックを、チップオンウェハーオンサブストレート(CoWoS)パッケージング技術で統合した最新のAIアクセラレータである。
単一のTrainium2チップは1.3ペタフロップスのFP8演算性能と96GBの高帯域幅メモリを実現し、2.9TBpsのメモリ帯域幅を提供する。これはNVIDIA H100の同種の性能指標である2ペタフロップスのFP8性能、80GBのメモリ容量、3.35TBpsのメモリ帯域幅と比較しても競争力のある仕様となっている。
AWSはこのTrainium2チップを活用して、2つの異なるサービス構成を提供する。標準的なTrn2インスタンスは16個のTrainium2チップを搭載し、20.8ペタフロップスの演算性能を実現する。より大規模なワークロード向けには、NeuronLinkインターコネクトで4台のTrn2サーバーを接続したTrn2 UltraServerを提供する。この構成では64個のTrainium2チップを統合し、密度の高いFP8演算で83.2ペタフロップス、スパース演算モードでは最大332.8ペタフロップスの理論演算性能を達成する。
実性能の検証では、Meta社の大規模言語モデルLlama 405Bのトークン生成スループットにおいて、主要クラウドプロバイダーの同種サービスと比較して3倍以上の性能を示している。さらにAWSは、これらのインスタンスが現行のGPUベースのインスタンス(NVIDIA H200搭載のP5eおよびP5enインスタンス)と比較して、30〜40%優れた価格性能比を実現すると主張している。
Trn2インスタンスは現在、AWSのUSイースト(オハイオ)リージョンで利用可能であり、今後他のリージョンにも展開される予定である。より大規模なTrn2 UltraServer構成は現在プレビュー段階にあり、特に数千億から数兆のパラメータを持つ大規模モデルのトレーニングや推論において、その真価を発揮することが期待されている。
Annapurna Labsのシニアディレクター Gadi Hutt氏は、この新しいインフラストラクチャについて「7億パラメータのモデルはもはや大規模とは言えません。2000億や4000億パラメータのモデルを可能な限り低いレイテンシーで提供する必要があり、そのためにUltraServerを開発しました」と説明している。この言葉は、急速に進化するAIモデルの規模と、それを支えるインフラストラクチャの重要性を端的に表している
2025年後半に登場予定のTrainium3
AWSが次世代AI処理基盤として発表したTrainium3は、半導体製造プロセスの最先端である3ナノメートルプロセスを採用する初のAI専用アクセラレータとなる。この微細化による製造プロセスの進化により、現行のTrainium2と比較して電力効率を40%向上させることが可能となった。これは大規模なAIモデルのトレーニングやデプロイメントにおいて、データセンターの運用コストを大幅に削減できる可能性を示している。
演算性能に関して、Trainium3を搭載したUltraServer構成では、理論上332.8ペタフロップスの密度の高いFP8演算性能を実現する見込みである。さらに、スパース演算モードを活用した場合、1.3エクサフロップス以上の演算性能も視野に入る。この性能向上は、現行のTrainium2 UltraServerが達成する83.2ペタフロップスから4倍の飛躍を意味する。
ただし、AWSは現時点でTrainium3の具体的なメモリ構成については明らかにしていない。業界の専門家たちは、NVIDIAのBlackwellアーキテクチャやAMDのMI355Xが採用を予定している6ビットまたは4ビット浮動小数点演算への対応が、この大幅な性能向上の鍵を握っているのではないかと推測している。
特筆すべきは、AIワークロードにおける性能が単純な演算性能(FLOPS)だけでなく、メモリ帯域幅などの複数の要因に依存するという点である。この観点から、AWSは演算性能の向上だけでなく、システム全体のバランスを考慮した設計を行っているとみられる。NVIDIAのH200チップで実証されたように、メモリ帯域幅の向上は大規模言語モデルの推論性能に大きな影響を与える可能性がある。
開発スケジュールに関して、2025年後半という発売時期の設定は、半導体業界の標準的な開発サイクルと比較すると極めて野心的である。これはAWSが急速に進化するAI市場において、競争力を維持するための戦略的な判断とみられる。ただし、発表から一般提供までの期間がTrainium2同様に長期化する可能性もあり、実際の市場投入時期については慎重に見極める必要がある。
Gadi Hutt氏によると、Trainium3の開発においては性能向上と電力効率の改善を同時に追求している。これは、持続可能なAIインフラストラクチャの構築という観点から、極めて重要な取り組みといえる。増大する一方のAIワークロードに対して、データセンターの電力消費を抑制しながら必要な演算性能を提供することは、クラウドプロバイダーにとって今後ますます重要な課題となっていくためである。
今回発表されたTrainium3の性能目標は野心的だが、NVIDIAのBlackwell(最大720ペタフロップス/ラック)には及ばない。とは言え、3nm プロセスへの移行とアーキテクチャの改良で、性能/電力効率の大幅な向上を実現できれば、AWS はクラウドAI市場で独自のポジションを確立できるだろう。ただし、2025年後半という発売時期は、競合他社の次世代製品との競争を考えると、やや遅いタイミングとなる可能性がある。
Sources
コメント