テクノロジーと科学の最新の話題を毎日配信中!!

NVIDIA Dynamo:AIトークン生成を最大30倍向上させる推論ソフトウェア

Y Kobayashi

2025年3月19日

NVIDIAは3月のGTC 2025カンファレンスにおいて、AI推論処理を劇的に高速化する新しいオープンソースソフトウェア「NVIDIA Dynamo」を発表した。Triton Inference Serverの後継として開発されたDynamoは、特に推論AIモデル(考えるように設計されたAIモデル)の処理効率を向上させ、同一GPU環境でのパフォーマンスを最大30倍に引き上げることで、AI関連サービスのコスト削減と収益向上を実現するという。

NVIDIA Dynamoの概要

NVIDIA Dynamoは、大規模な分散環境でのAI推論を効率化するために設計された新しいオープンソースフレームワークだ。同社のTriton Inference Serverの後継として位置づけられており、特に「AI推論モデル」(Reasoning AI Models)と呼ばれる、複雑な思考プロセスを要するAIモデルの高速化とスケーリングに焦点を当てている。

Triton Inference Serverが初めて導入された2018年以降、オープンソースのAIモデルサイズは約2,000倍に増大し、さらにエージェント型AIワークフローとの統合が進んでいる。このような状況下で、モデルを複数のノードに分散させて運用する必要性が高まっており、特に「disaggregated serving(分離サービング)」のような新たな分散推論最適化手法へのニーズが急増していた。

NVIDIAのJensen Huang CEOは「世界中の産業がAIモデルを訓練して様々な方法で考え、学習させ、時間とともにより洗練されたものにしています」とし、「カスタム推論AIの未来を実現するために、NVIDIA Dynamoはこれらのモデルを大規模に提供し、AIファクトリー全体でコスト削減と効率性を向上させます」と述べている。

Disaggregated Servingの技術と仕組み

NVIDIA Dynamoの核となる技術の一つが「Disaggregated Serving(分離サービング)」である。従来のLLM(大規模言語モデル)デプロイメントでは、プリフィル(入力処理)フェーズとデコード(出力生成)フェーズが同一のGPUまたはノードで実行されていた。しかし、これらのフェーズはリソース要件が異なる特性を持っている。

プリフィルフェーズは最初の出力トークンを生成するためにユーザー入力を処理し、主に計算能力に依存する。一方、デコードフェーズはその後のトークンを生成し、主にメモリに依存する。これらのフェーズを同じGPUやGPUノードに配置すると、特に長い入力シーケンスの場合、リソースの非効率な使用につながっていた。

Disaggregated Servingはこの問題を解決するために、プリフィルとデコードのフェーズを異なるGPUまたはノードに分離する。これにより、開発者は各フェーズを独立して最適化し、それぞれのフェーズに異なるモデル並列化戦略を適用し、異なるGPUデバイスを割り当てることが可能になる。

例えば、プリフィルフェーズでは通信オーバーヘッドを減らすために低テンソル並列性を使用し、デコードフェーズではメモリ操作を改善するために高テンソル並列性を適用できる。このアプローチにより、リソース割り当てがより効率的になり、推論サービスのコストが削減される。また、TTFT(Time To First Token:最初のトークンが生成されるまでの時間)やITL(Inter-Token Latency:トークン間の遅延)などのサービスレベル目標(SLO)をより細かく制御できるようになる。

NVIDIAによれば、Disaggregated Servingを使用したDynamoは、NVIDIA GB200 NVL72上でオープンソースのDeepSeek-R1モデルを実行する際、処理できるリクエスト数を最大30倍に増加させることができるという。また、NVIDIA HopperでLlama 70Bモデルを提供する際のスループット性能を2倍以上に向上させることができるとしている。

NVIDIA Dynamoの主な機能

NVIDIA Dynamoは、大規模分散および分離推論サービングを可能にするために、4つの主要な技術的革新を含んでいる:

1. NVIDIA Dynamo Planner

Dynamo Plannerは、分散推論環境でのGPU容量メトリクスを継続的に監視するコンポーネントだ。アプリケーションのサービスレベル目標(SLO)と組み合わせて、着信リクエストを分離サービングで処理するか、追加のGPUをいずれかのフェーズに追加するべきかなどの判断を行う。

これにより、変動するワークロードに適応しながらGPUリソースをプリフィルとデコードに効率的に割り当て、システムのピークパフォーマンスを維持することができる。例えば、長い入力シーケンス長(ISL)を持つ要約リクエストが急増した場合、プリフィルGPUが過負荷になる一方でデコードGPUが十分に活用されないといった状況に対応できる。

2. NVIDIA Dynamo Smart Router

Smart Routerは、大規模なGPUフリート内のKVキャッシュ(Key-Value Cache:コンテキスト理解のための計算結果)を追跡し、着信リクエストを効率的にルーティングして、コストのかかる再計算を最小限に抑える。

着信リクエストをハッシュ化し、RadixTreeと呼ばれるデータ構造に格納することで、大規模分散環境でのKVキャッシュの位置を追跡する。また、KVキャッシュの挿入と削除のための特殊なアルゴリズムを活用し、最も関連性の高いブロックが保持されるようにする。

このシステムにより、キャッシュヒット率、ワークロードバランス、GPU容量を考慮した効率的なリクエスト処理が可能になり、不必要なKVキャッシュの再計算を削減することで、より多くのユーザーリクエストに応答できるようになる。

3. NVIDIA Inference Transfer Library (NIXL)

NIXLは、高スループット、低レイテンシーのポイントツーポイント通信ライブラリだ。同じセマンティクスを使用して異なるメモリおよびストレージ階層間でデータを迅速かつ非同期的に移動するための一貫したデータ移動APIを提供する。

特に推論データ移動用に最適化され、様々なタイプのメモリおよびストレージ間での非ブロッキングおよび非連続データ転送をサポートしている。NIXLは、GPUDirect Storage、UCX、S3などの他の通信ライブラリとインターフェースできるようにしており、NVLink(C2CまたはNVSwitch)、InfiniBand、RoCE、またはEthernetを介した転送かどうかに関係なく共通のAPIを提供する。

大規模な分散推論では、テンソル並列、パイプライン並列、エキスパート並列などのモデル並列化技術を活用して、GPUDirect RDMAを使用したノード間およびノード内の低レイテンシー、高スループット通信が必要とされる。NIXLはこれらの要件に対応した設計となっている。

4. NVIDIA Dynamo Distributed KV Cache Manager

Distributed KV Cache Managerは、古いまたはアクセス頻度の低いKVキャッシュブロックをより費用対効果の高いメモリおよびストレージソリューションにオフロードする機能を提供する。CPUホストメモリ、ローカルストレージ、ネットワークオブジェクトストレージなどを活用することで、GPUメモリに保持するコストのわずかな割合で、ペタバイト規模のKVキャッシュデータを保存できるようになる。

このコンポーネントは、頻繁にアクセスされるデータをGPUメモリに配置し、アクセス頻度の低いデータを共有CPUホストメモリ、SSD、またはネットワークオブジェクトストレージに移動する高度なキャッシングポリシーを使用している。また、オーバーキャッシング(ルックアップレイテンシーを引き起こす可能性がある)とアンダーキャッシング(ルックアップの欠落とKVキャッシュの再計算につながる)のバランスをとるインテリジェントな削除ポリシーを組み込んでいる。

GPUメモリを解放しながら、歴史的なKVキャッシュを保持および再利用して推論計算コストを削減することができるため、貴重なGPUリソースをより有効に活用できるようになる。

性能向上の具体例と採用企業

NVIDIAによれば、同じ数のGPUを使用する場合、DynamoはHopperプラットフォームでLlamaモデルを提供するAIファクトリーの性能と収益を2倍にすることができる。また、GB200 NVL72ラックの大規模クラスターでDeepSeek-R1モデルを実行する場合、NIVIDIAのインテリジェントな推論最適化により、GPUあたりのトークン生成数が30倍以上向上するという。

この高性能な推論技術に対して、すでに多くの企業が採用を計画または検討している。AWS、Cohere、CoreWeave、Dell、Fireworks、Google Cloud、Lambda、Meta、Microsoft Azure、Nebius、NetApp、OCI、Perplexity、Together AI、VASTなどが含まれている。

Perplexity AIのCTO Denis Yaratsは「月間数億件のリクエストを処理するために、NVIDIAのGPUと推論ソフトウェアに依存し、ビジネスとユーザーが要求するパフォーマンス、信頼性、スケールを提供しています。拡張された分散サービング機能を備えたDynamoを活用して、さらなる推論サービスの効率化を実現し、新しいAI推論モデルの計算需要に対応することを楽しみにしています」と述べている。

AIプロバイダーのCohereは、NVIDIA Dynamoを使用してCommandシリーズモデルにエージェント型AI機能を提供する計画を立てている。Cohereのエンジニアリング上級副社長であるSaurabh Bajiは「高度なAIモデルのスケーリングには、洗練されたマルチGPUスケジューリング、シームレスな調整、推論コンテキストをメモリとストレージ間でシームレスに転送する低レイテンシーの通信ライブラリが必要です。NVIDIA Dynamoは企業顧客に最高のユーザー体験を提供するのに役立つと期待しています」と語った。

同様に、AI Acceleration Cloudを運営するTogether AIは、独自のTogether Inference EngineとNVIDIA Dynamoを統合して、GPU間でのインファレンスワークロードのシームレスなスケーリングを可能にし、モデルパイプラインの様々な段階でのトラフィックのボトルネックに動的に対処する計画を立てている。

Together AIのCTO Ce Zhangは「コスト効果の高い推論モデルのスケーリングには、分散サービングやコンテキスト対応ルーティングなどの新しい高度な推論技術が必要です。NVIDIA Dynamoのオープン性とモジュール性により、リソース使用率を最適化しながらより多くのリクエストを処理するために、そのコンポーネントを我々のエンジンにシームレスに組み込むことができます」と語っている。

今後の展望と利用方法

NVIDIA Dynamoは完全なオープンソースとして提供され、PyTorch、SGLang、NVIDIA TensorRT-LLM、vLLMをサポートしている。これにより、企業、スタートアップ、研究者が分散推論環境でAIモデルを提供し最適化する方法を開発することが可能になる。

開発者は本日からai-dynamo/dynamo GitHubリポジトリでNVIDIA Dynamoを利用可能だ。AI推論の開発者と研究者はGitHubでNVIDIA Dynamoに貢献するよう招待されている。また、NVIDIA Dynamoの開発者およびユーザー向けの公式NVIDIAサーバーである新しいNVIDIA Dynamo Discord Serverに参加することも可能だ。

SGLang、TensorRT-LLM、またはvLLMをバックエンドとして使用しているTritonユーザーは、これらのバックエンドをNVIDIA Dynamoにデプロイして、大規模デプロイメントでの分散および分離推論サービングの恩恵を受けることができる。他のAIバックエンドを持つTritonユーザーは、NVIDIA Dynamoを探索し、GitHubの技術ドキュメントガイドとチュートリアルを使用して、AIワークロードをNVIDIA Dynamoに移行するための計画を作成することができる。

NVIDIA AIエンタープライズを使用しているTritonユーザーは、既存のTritonデプロイメントについて引き続き製品ブランチのサポートを受けることができる。NVIDIA Dynamoは将来的にNVIDIA AIエンタープライズでサポートされ、迅速かつ簡単なデプロイメントのためにNVIDIA NIMマイクロサービスで利用可能になる予定だ。


Sources

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする

コメントする