韓国科学技術院(KAIST)が支援するスタートアップ、Panmnesiaが、AI GPUの性能を劇的に向上させる可能性を秘めた革新的な技術を発表した。この新技術により、GPUは内蔵メモリの制限を超えて、PCIeバスを介して外部メモリを利用できるようになるという。これは、データセットの巨大化と計算能力の需要増大に直面しているAI業界にとって、重要なブレークスルーとなる可能性がある。
CXLプロトコルがAI GPUのメモリ制限を打破
Panmnesiaが開発したのは、CXL (Compute Express Link) プロトコルを利用してAI GPUに外部メモリを追加できるIPだ。現在のAIアクセラレータは、搭載できるHBM (高帯域幅メモリ) の量に制限があるため、オンボードメモリに縛られている。しかし、Panmnesiaの新技術により、GPUはDRAMやSSDなどの外部メモリを活用できるようになるのだ。
この技術の核心は、CXL 3.1準拠のRoot Complex (RC) チップだ。このチップには複数のポートがあり、PCIeバスを通じてGPUと外部メモリを接続する。さらに、HDM (Host-Managed Device Memory) デコーダーが接続のブリッジとして機能し、メモリの割り当てと変換を管理し、 GPUのメモリサブシステムに対して、外部メモリがシステムメモリであるかのように見せかける。
PanmnesiaのCXL-Optは、SamsungやMetaが開発したプロトタイプ(CXL-Proto)と比較して、はるかに優れたパフォーマンスを示している。CXL-Optは2桁のナノ秒レベルの往復レイテンシを達成し、CXL-Protoの250ナノ秒を大幅に上回った。また、従来のUVM(Unified Virtual Memory)ソリューションと比較しても、CXL-Optの実行時間は大幅に短縮されている。
ただし、Panmnesiaは、GPUにCXLを統合する上で課題にも直面している。それは、そもそもGPUにCXLロジックファブリックが存在しないこと、DRAMやSSDエンドポイントをサポートするサブシステムがGPUに欠如していること、GPUのキャッシュとメモリサブシステムが、UVM以外の拡張を認識しないといった点だ。
これらの課題に対し、Panmnesiaは独自のCXL 3.1準拠Root ComplexとHDMデコーダーを開発することで解決策を見出した。この技術は、メモリエクスパンダーやGPU/CPUプロトタイプのハードウェアRTLに統合され、様々なコンピューティングハードウェアとの互換性が実証されている。
この技術の実用化により、AI企業は新しいGPUを購入したり、より単純なデータセットを使用したり、性能を犠牲にしてCPUメモリを使用したりする必要がなくなる可能性がある。Panmnesiaの解決策は、HBMチップを積層する現在の方法と、より効率的なソリューションへの移行の間の中間的な役割を果たすことができる。
ただし、この技術の普及には課題もある。AMDやNVIDIAなどの大手GPU製造業者が自社のGPUにCXLサポートを追加するかどうかは不明だ。また、これらの企業がPanmnesiaのようなサードパーティのIPブロックを使用するか、独自の技術を開発するかも注目点となる。
Sources
コメント