Seagate、次世代AI向けNVMe HDD技術を実証 - 性能とコスト効率を両立

Seagateは、次世代AIデータセンター向けにPCIeインターフェースとNVMe 2.0プロトコルを採用した革新的なHDD技術の実証に成功した。NVIDIAとの共同実験では、従来のSAS/SATAインターフェースが抱える複雑性と性能の制約を解消し、テラバイトあたりの電力消費を4分の1に抑えつつ、エクサバイト規模のAIデータに対応できる高速ストレージソリューションを実現している。

NVMe HDDとは – SAS/SATAの限界を超える新技術

従来のハードディスクドライブ（HDD）は、SCSI、Parallel ATA、Serial ATA（SATA）、SASなどの特殊なインターフェースを使用してきた。これらのインターフェースは1980年代に開発されたシリアル化プロトコルに依存しており、現代の高速データ処理環境、特にAIや大規模データセンターには最適化されていない。

SASやSATAセットアップでは、ホストバスアダプタ（HBA）や追加のコントローラ層が必要となり、システムの複雑性を増し、潜在的な障害ポイントを作り出し、レイテンシも追加される。これらの要因により、高スループットと低レイテンシを要求するAIワークロードには適していない。

SeagateのNVMe HDDは、これらの課題を解決するために開発された。NVMeをハードドライブの接続用の将来標準プロトコルとして開発することで、AIデータパイプラインを最適化し、ハードドライブのコスト効率と大容量の利点を維持しながらストレージのボトルネックを減少させるソリューションを提供する。

特に注目すべき点は、NVMeとPCIeの組み合わせにより、SAS/SATAと比較して以下のような大幅な改善が実現されることだ：

大幅に高い帯域幅（SAS/SATAの6-12Gbpsに対し、PCIeは最大128GB/sをサポート）
著しく低いレイテンシ
優れたスケーラビリティ
システム複雑性の大幅な削減

AI時代のストレージ課題と新たな解決策

AIシステムがより洗練されるにつれ、データストレージへの要求は指数関数的に増大している。機械学習データセットは現在ペタバイト規模のストレージを必要とし、一部の企業ではAIモデルの進化に対応するためにエクサバイト規模のデータセットを管理している。

現在のストレージアーキテクチャには3つの大きな課題がある：

SSDベースのアーキテクチャ：高速性能を提供するが、AIトレーニングワークロードの大規模ストレージには高コストすぎる
SAS/SATAハードドライブシステム：コスト効率が良いが、AIワークロードの高スループット・低レイテンシのニーズに最適化されていない
クラウドベースのストレージ：高いWANデータ転送コスト、レイテンシの急増、予測不能な取得時間などの非効率性がある

NVMe HDDは、これらの課題に対して以下のような利点を提供する：

シンプルなアーキテクチャ：HBA、プロトコルブリッジ、追加のSASインフラの必要性を排除
統一されたプロトコル：単一のNVMeドライバとOSスタックにより、ハードドライブとSSDが効率的に連携
直接GPU-ストレージアクセス：DPUを通じてCPUボトルネックをバイパス
分散AIストレージアーキテクチャ統合：NVMe over Fabrics（NVMe-oF）によるシームレスなスケーリング
コスト最適化：SSDはアクティブなデータセット用、HDDは長期的なAIトレーニングデータ保持用として組み合わせて使用可能

Seagateの実証実験 – NVMe HDDの可能性を証明

SeagateはNVMe HDDの実世界での影響を実証するために、NVMe HDD、NVMe SSD、NVIDIA BlueField DPU、AIStoreソフトウェアを統合した実証実験（POC）を実施した。このシステムはSeagate NVMeハイブリッドアレイエンクロージャー内で実行され、以下の構成で構築された：

8台のNVMe HDD
キャッシング用4台のNVMe SSD
NVIDIA Bluefield 3 DPU
AIStoreソフトウェア

実験結果は、NVMe HDDがAIワークフローにもたらす主要な利点を明確に示している：

DPUを介した直接GPU-ストレージ通信により、AIデータワークフローの関連レイテンシが低減
レガシーSAS/SATAオーバーヘッドの排除により、システムアーキテクチャが簡素化され、ストレージ効率が向上
AIStoreソフトウェアによるキャッシングとティアリングの動的最適化で、モデルトレーニングパフォーマンスが向上
NVMe-oF統合によるシームレスなスケーリングで、マルチラックAIストレージクラスターの拡張性を実証

この実証実験は、NVMe HDDがオールフラッシュアーキテクチャを必要とせずに、世界で最も要求の厳しいAIワークロードをサポートできることを示している。

実世界での応用 – AIストレージの実用例

Seagateは、自社のスマートファクトリーでAIモデルを展開してきた10年の経験を活かし、実世界のAIワークロードでNVMe HDDを検証している。

例えば、Seagateの量子アンテナ生産施設では、AIによる欠陥検出が高速画像取り込みと迅速な取得に依存しており、モデルトレーニングと継続的な改善が必要とされる。NVMe HDDは、このプロセスに以下の利点をもたらす：

高精細画像をロスレスで保存するための大容量ストレージ
AIトレーニングデータセットの効率的な長期保存
AIモデルの再トレーニングと継続的改善のためのシームレスなアクセス

製造業以外にも、NVMe HDDは自動運転車、医療画像解析、金融分析、ハイパースケールクラウドAIプラットフォームなど、様々な分野での応用が期待されている。

持続可能性とコスト削減 – NVMe HDDの優位性

AIインフラストラクチャは膨大な電力を消費するため、持続可能性は重要な課題となっている。SeagateのNVMe HDDは、SSD中心のアーキテクチャに比べてコスト効率と環境効率に優れた代替手段となる。

SSDと比較して、NVMe HDDは以下の利点を提供する：

テラバイトあたりの炭素排出量が10倍効率的で、環境への影響を大幅に削減
テラバイトあたりの運用電力消費が4倍効率的で、AIデータセンターのエネルギーコストを低減
テラバイトあたりのコストが大幅に低く、AIストレージのTCO（総所有コスト）を削減

AIインフラストラクチャが拡大するにつれ、持続可能なストレージはコストと環境への影響を削減する上で重要な要素となる。Seagateの開発ロードマップには、NVMe HDD効率の継続的な向上が含まれており、組織が長期的な持続可能性目標を達成しながらAIストレージをスケールすることを支援する。

技術的詳細と実装の展望

HDDにNVMeを追加するコストは比較的低い。これは、HDDが従来のSAS/SATA物理コネクタと3.5インチフォームファクタを維持する一方で、主な変更点は以下に限られるためだ：

NVMeプロトコルサポートの追加
コントローラへのPCIeインターフェース追加（コストは最小限）
GPUDirectなどのNVMe機能をサポートするファームウェア開発

NVMe/PCIe接続への移行によりHBAと複雑性が排除されるため、HDD価格の小幅な上昇は業界にほとんど影響を与えないだろう。

ただし、HDDの容量が増加するにつれてテラバイトあたりのIOPS性能は低下し、これが将来的にAIクラスターでの性能に影響を与える可能性がある。この課題に対処するために、SeagateのMach.2のようなデュアルアクチュエーターHDDがAIクラスター向けに好ましい選択肢となる可能性がある。このようなドライブは通常の単一アクチュエーターHDDよりも高価だが、2台の単一アクチュエーターHDDよりも安価であるため、大きな混乱を引き起こすことはないだろう。

今後のロードマップと市場導入時期

Seagateは次世代のAI対応ストレージインフラストラクチャを可能にする革新を開発しており、業界のトレンドとハイパースケールおよびクラウド環境のニーズに合わせたロードマップを提示している：

現在36TBドライブを出荷中のMozaicプラットフォームをスケールアップし、さらに大容量のNVMe HDDを開発
NVMe-oFサポートの強化により、AIワークロードがハイブリッド環境全体でシームレスにスケーリング可能に
AIデベロッパーが最適化されたストレージソリューションを容易に展開できるようにするリファレンスアーキテクチャの作成

市場への導入時期については、大企業はHDDなどの製品に対して二重供給源を好むため、NVMe HDDはOpen Compute Project（OCP）の一部として開発された。Seagateはすでにこの技術を持っているが、競合他社も同様のデバイスを導入する必要がある。すべてのHDDメーカーがこのような製品を大量に生産できるようになった時点で、AIワークロードに対応するクラウドサービスプロバイダーがこれらの製品の採用を開始すると見られる。

Source

Seagate: NVMe hard drives and the future of AI storage.