世界を映像として作るAIは、短いクリップを生成する段階から、操作に応じて進み続けるシミュレーションへ重心を移し始めている。世界モデルを開発するOdysseyは2026年6月17日、3億1000万ドルのシリーズB調達を発表した。評価額は14億5000万ドルで、ラウンドはNatural Capitalが主導し、Amazon、GV、AMD Ventures、EQT、IQTなどが参加した。

資金額と同じくらい目を引くのが、AWSとの関係だ。OdysseyはAmazon Web Servicesを優先クラウドプロバイダーに指定し、Amazon傘下のAnnapurna Labsと協力して世界モデルをAWS Trainiumチップ向けに最適化すると明らかにした。世界モデルは映像品質だけでなく、長い時間軸で破綻しない物理挙動、操作への応答、低遅延の推論を同時に要求する。今回の調達は、この分野が研究発表の場から専用計算基盤を巻き込む産業カテゴリへ移行しつつあることを示している。

Odysseyは2023年にOliver Cameron氏とJeff Hawke氏が設立した。自動運転で培った世界予測の考え方を、道路という狭い対象から一般的な世界シミュレーションへ広げる構想を掲げてきた。今回の資金は、モデル開発、計算基盤、パートナー展開を加速するためのものだ。

AD

調達の焦点はモデル開発と計算基盤の同時拡張にある

OdysseyのシリーズBは、世界モデル企業の資金調達として大きい。既存投資家にはJeff Dean氏、Elad Gil氏、Qasar Younis氏、Kyle Vogt氏、Garry Tan氏などが含まれ、OdysseyはOpenAI、DeepMind、MSL、Recursive、Thinking Machinesの研究者も支援者として挙げている。SiliconANGLEはDecart、AMI Labs、Runwayも大型資金を集めるなか、世界モデル分野が急速に投資対象になっていると位置づけている。

ただし、資金調達競争として読むだけでは今回の意味を取り逃がす。Odysseyが強調したのは、AWSとの関係を深め、Trainium上で世界モデルを最適化することだ。AWSのTrainiumは生成AIの訓練と推論を高性能かつ低コストで行うためのAIアクセラレータで、Trainium3は1チップあたり144GBのHBM3eを持ち、Trn3 UltraServersでは最大144チップ、20.7TBのHBM3e、362 MXFP8 PFLOPsに達する。

世界モデルは通常の動画生成モデルより計算基盤との結びつきが強い。短い映像を一度生成して終えるのではなく、ユーザーやAIエージェントの行動に応じて状態を次々に予測し続ける必要があるからだ。速度が足りなければ操作できず、安定性が足りなければ数秒後に世界が崩れる。モデルの性能だけでなく、クラウド、チップ、ソフトウェアスタック、配信コストが一体で問われる。

Amazon側のRon Diamant氏は、世界モデルを「大規模な計算スループットと厳しい低遅延制約」を持つAIワークロードと説明している。OdysseyにとってAWSは世界モデルを実時間で動かすための計算基盤と共同開発の相手になり、AWSにとっては言語モデル以外の重いAIワークロードをTrainiumに引き込む案件になる。

世界モデルは操作に応じて次の状態を予測する

Odysseyがいう世界モデルは、テキストから映像を生成するモデルの延長ではあるが、仕組みの焦点は異なる。一般的な動画生成モデルはプロンプトを起点に一定尺の映像を生成する方向で進化してきた。世界モデルはユーザーやAIエージェントが途中で取る行動を受け取り、その後の状態を更新し続けることを狙う。

Odyssey-2 Maxの説明では、世界モデルは過去の状態と行動から次の状態を予測する因果的なモデルとして扱われる。映像を作るだけでなく、世界の中で物体がどう動き、人やエージェントの操作にどう反応するかを時間の流れに沿って更新する。Odysseyはこの形式をOdyssey-2シリーズの土台と位置づけている。

この違いは用途に直結する。ロボットの訓練、ゲーム、シミュレーション、防衛、インタラクティブシステムでは、見た目の自然さだけでは不十分だ。ロボットが物体をつかむ、車両が危険な状況を避ける、複数のプレイヤーやAIが同じ空間で動くといった場面では、世界が操作に対して一貫して反応しなければならない。映像の美しさよりも、長い時間で破綻しない物理と相互作用が価値になる。

このため、世界モデルの評価では物理の一貫性が大きな焦点になる。OdysseyはOdyssey-2 Maxについて、物体の力学、熱、素材、多視点整合性などを測るVBench 2の物理サブスコアと、Physical AIベンチマークの物理モデリング項目で評価したと説明している。

AD

Odysseyの直近モデルは物理、音声、複数参加者へ広がる

Odysseyは今回の調達発表で、直近の研究成果を一つの流れとして示した。中心にあるのが2026年4月発表のOdyssey-2 Maxで、同社はこれをこれまでで最大かつ最も強力な汎用世界モデルと説明している。

Odysseyの測定では、Odyssey-2 MaxはOdyssey-2 Proの約3倍の規模で、VBench 2の物理スコアを49.67から58.52へ、PAI-Benchの物理スコアを91.67から93.02へ上げた。同社は120秒以上の生成で評価し、公開されている世界モデルを対象に比較したとしている。独立検証済みの業界標準順位ではなく、Odysseyが示した評価結果として読むべきだが、同社が重視する物理精度の方向性ははっきりしている。

モデル設計でも長時間の相互作用を意識した要素が並ぶ。Odyssey-2 Maxは自己回帰型の拡散トランスフォーマーを採用し、独自のKVキャッシュにより従来より最大20倍長いシーケンスでフルバックプロパゲーションを可能にしたと説明されている。因果的注意機構、潜在空間での行動条件付け、フローマッチング、少ないデノイズ手順で高品質な映像を出す蒸留も挙げられている。

Starchild-1は、世界モデルを視覚だけから音声を含むマルチモーダルな相互作用へ広げる試みだ。Odysseyは2026年5月17日、Starchild-1をリアルタイムのマルチモーダル世界モデルとして発表した。テキスト、音声、行動のストリーミング入力に応じながら、同期した音声と映像を自己回帰的に生成する。一定尺のクリップをオフラインで作る従来の音声付き動画生成とは異なり、途中の入力で世界の進み方を変えることを狙う。

Agora-1は複数の参加者が同じ生成世界を共有する方向の実験だ。Odysseyは2026年5月18日、Agora-1をマルチエージェント世界モデルとして発表し、最大4人のプレイヤーが同じ生成世界でリアルタイムに相互作用できると説明した。参加者の行動から共有世界の状態を維持し、それぞれの視点に映像を配信する。Odysseyはこれを、学習されたゲームエンジンのように機能するものと表現している。

Agora-1の設計で目を引くのは、シミュレーションとレンダリングを分けている点だ。モデルはまずプレイヤーの行動に応じて世界状態がどう変わるかを学び、次にその共有状態を視覚として描く。ゲームのルールもレンダリングも手書きで実装するのではなく、両方をデータから学ぶ。この設計はゲームにとどまらず、ロボティクスや複数視点のシミュレーションにもつながる。

Trainium最適化は、世界モデルの商用化に向けた試金石になる

Odyssey-2 Maxは数百基のNVIDIA Blackwell B200 GPUで訓練されたと説明されている。今回のAWS提携を「すでにTrainiumで訓練されたモデル」と読むのは早い。発表で確認できるのは、AWSを優先クラウドに指定し、Annapurna LabsとTrainium向け最適化に取り組むという段階だ。

それでも、この提携が持つ意味は小さくない。世界モデルが実用に近づくほど、GPUを大量に確保するだけでは足りなくなる。長い時間軸を扱う訓練、操作入力を受けながらの推論、複数ユーザーや複数エージェントの同期、映像と音声の同時生成が重なるからだ。専用チップ上でどれだけ安く、低遅延で、安定して動くかが採用判断を左右する。

AWSはTrainiumを、チップ、サーバー、ネットワーク、Neuron SDK、EKS、SageMaker HyperPodなどを一体で設計したスタックとして説明している。PyTorch、vLLM、Hugging Face、Rayとの互換性も前面に出している。Odysseyのような研究企業にとって、専用シリコンへ最適化しながら開発者の実験速度を保てるかは、モデルそのものと同じくらい重要になる。

未確定の点は多い。Odyssey-2 Maxは非公開ベータで、対象はロボティクス、ゲーム、シミュレーション、防衛、インタラクティブシステムに取り組むパートナーに限られる。価格、一般提供時期、具体的な顧客、Trainium上での性能、第三者によるベンチマーク検証は明らかになっていない。世界モデルが有望な研究分野から実務に耐える基盤へ進むには、派手なデモよりも、破綻しない長時間動作と運用コストの数字が必要になる。

今回の資金調達は、その検証に必要な燃料をOdysseyにもたらした。競争の軸は、生成映像の見栄えを比べる段階から、物理、音、複数エージェント、低遅延インフラを同時に整える段階へ移っている。Odysseyが次に示すべきものは、AIが世界を「それらしく」描けることではなく、利用者やエージェントが中で行動しても世界として扱えるだけの一貫性を保てることだ。