CES 2025において、NVIDIA CEOのJensen Huang氏は、ロボットや自動運転車などの物理AIシステム開発を加速させる新プラットフォーム「Cosmos」を発表した。このプラットフォームは、世界基盤モデル(World Foundation Models:WFMs)、高度なトークナイザー、安全性ガードレール、および高速ビデオ処理パイプラインを統合した包括的なソリューションとなっている。
物理世界のAI開発における画期的なプラットフォーム
Cosmosは、従来の生成AIがデジタルコンテンツの生成に特化していたのに対し、物理世界におけるアクションの生成という新たな領域に踏み込んでいる。この技術の核となるWorld Foundation Models(WFMs)は、2000万時間以上におよぶ実世界の映像データから抽出された9000兆のトークンを学習基盤としている。このデータには人間の相互作用、産業プロセス、ロボティクスの動作、自動運転における走行データなど、多岐にわたる物理的な動作が含まれている。
特筆すべきは、このプラットフォームが持つデータ処理能力だ。NVIDIAの最新Blackwellプラットフォームを活用することで、2000万時間という膨大なビデオデータの処理を僅か2週間で完了できる。これは従来のHopper GPUと比較して約2倍の速度であり、CPUベースのシステムと比較すると処理時間を実に3年分も短縮している。さらに、Cosmos Tokenizerは従来のトークナイザーと比較して8倍の圧縮率と12倍の処理速度を実現している。
この技術革新がもたらす実用的な価値は極めて大きい。例えば、ロボットが調理におけるオムレツの返し方や、製造ラインでの部品の取り扱いなど、特定のタスクを学習する際、従来は人間の動作を数百回も撮影し、それを手作業でラベリングする必要があった。Cosmosを活用することで、これらのトレーニングプロセスを自動化し、コストと時間を大幅に削減できる。さらに、自動運転車の開発においても、様々な道路状況や気象条件下での走行データを効率的に生成し、安全性の向上に貢献することが期待されている。
NVIDIAのOmniverse環境との統合も、Cosmosの重要な特徴である。Omniverseで作成されたデジタルの物理モデルやシステムを、実世界における物理的なアクションへと変換することが可能だ。これにより、開発者はシミュレーション環境で作成した3Dシナリオから、フォトリアルな品質のビデオデータを生成し、AIモデルのトレーニングに活用できる。この機能は、特に予測困難な状況や危険を伴うシナリオのテストにおいて、その真価を発揮するだろう。
産業界からの高い期待と批判的な見方
Cosmosの発表を受けて、自動運転とロボティクス分野の主要企業が相次いで採用を表明している。特に注目すべきは配車サービス大手Uberの参画だ。同社CEOのDara Khosrowshahiは「生成AIがモビリティの未来を推進するには、豊富なデータと強力な計算能力の両方が必要となる」と述べ、NVIDIAとの提携により、業界全体にとってより安全で拡張性のある自動運転ソリューションの開発タイムラインを加速できると期待を示している。
自動運転ソフトウェア開発を手がけるWaabiは、自動運転ソフトウェア開発とシミュレーションにおけるデータキュレーションの文脈でCosmosの評価を進めている。同様に、自動運転向けAI基盤モデルを開発するWayveは、安全性検証に不可欠なエッジケースやコーナーケースの走行シナリオを探索するツールとしてCosmosの活用を検討している。
ロボティクス分野では、Agilityの最高技術責任者であるPras Velagapudiが、「ロボット環境における学習の成功を妨げる主要な課題は、データの不足と多様性の確保だ」と指摘している。Cosmosが提供するテキスト、画像、ビデオから物理世界へと変換する機能により、高コストな実世界でのデータ収集に依存せずに、様々なタスクに対応するフォトリアリスティックなシナリオを生成できることへの期待を表明している。
一方で、この技術アプローチに対する懐疑的な見方も存在する。BytedanceリサーチとTsinghua大学による最近の研究では、OpenAIのSoraを含む現在のビデオAIモデルが、基本的な物理法則を適切に理解できていないことを指摘している。研究者らは、これらのモデルが一般的に通用する規則を学習するのではなく、トレーニングデータの表面的な特徴、例えば色のパターンなどにのみ反応していると分析している。
さらに強い批判を展開しているのが、MetaのAI主任研究者Yann LeCunだ。彼はピクセル生成による世界予測というアプローチそのものを「無駄であり失敗する運命にある」と断言している。これは、現在のビデオベースのAIモデルが物理世界の本質的な理解には至っていないという根本的な課題を提起するものだ。
このように、Cosmosは産業界から大きな期待を集める一方で、アカデミアからは技術的アプローチの有効性に対する本質的な疑問も投げかけられており、今後の実証結果が注目される。
開発者向けの充実したサポート体制
NVIDIAは、Cosmosモデルを3つの主要バリアントで提供する。4億パラメータの「Nano」は軽量なリアルタイムアプリケーション向け、汎用的な「Super」、そして140億パラメータを持つ「Ultra」は特殊化モデルのトレーニング向けとなっている。
これらのモデルは、NVIDIA API カタログでプレビューが可能で、NGC カタログやHugging Faceを通じて完全なモデルファミリーにアクセスできる。さらに、企業顧客向けにはNVIDIA AI Enterpriseソフトウェアプラットフォームを通じたサポートも提供される。
Source
コメント