Odysseyが開発する「世界モデル」と従来の動画生成AIの違いは何ですか？

従来のAIは一定尺の映像を作るが、世界モデルは操作や行動に応じてリアルタイムに状態を更新し、シミュレーションのように世界を継続させる点が異なる。

OdysseyがAWSと提携し、Trainiumチップを採用する理由は？

世界モデルには膨大な計算量と低遅延な推論が不可欠であり、AWSの専用チップ向けに最適化することで、高性能かつ低コストな基盤を構築するためである。

Odyssey-2 Maxというモデルの特徴と評価軸は何ですか？

自己回帰型拡散トランスフォーマーを採用した最大級のモデルで、映像の美しさよりも物理挙動の一貫性や長時間生成における安定性を重視して評価されている。

世界モデルはどのような分野での活用が期待されていますか？

操作への一貫した反応が求められるロボットの訓練、ゲーム、シミュレーション、防衛、インタラクティブシステムなどの分野での活用が期待されている。

Odysseyが発表した「Starchild-1」や「Agora-1」はどのようなモデルですか？

Starchild-1は音声を含むマルチモーダルな相互作用を、Agora-1は複数人が同じ生成世界で同時に活動できるマルチエージェント環境を実現するモデルである。

テクノロジー

世界モデル開発のOdyssey、3億1000万ドル調達でAWSと計算基盤を拡張

Y Kobayashi 2026年6月18日

約 9 分 11 閲覧

この記事のポイント

何が起きた: Odysseyが3億1000万ドルを調達し、評価額は14億5000万ドルに達した。
なぜ重要か: 世界モデル競争が、動画生成デモから計算基盤まで含む開発競争に入る。
次に見るべき点: AWS Trainium最適化と非公開ベータで、実用時の速度と安定性を示せるか。

世界を映像として作るAIは、短いクリップを生成する段階から、操作に応じて進み続けるシミュレーションへ重心を移し始めている。世界モデルを開発するOdysseyは2026年6月17日、3億1000万ドルのシリーズB調達を発表した。評価額は14億5000万ドルで、ラウンドはNatural Capitalが主導し、Amazon、GV、AMD Ventures、EQT、IQTなどが参加した。

資金額と同じくらい目を引くのが、AWSとの関係だ。OdysseyはAmazon Web Servicesを優先クラウドプロバイダーに指定し、Amazon傘下のAnnapurna Labsと協力して世界モデルをAWS Trainiumチップ向けに最適化すると明らかにした。世界モデルは映像品質だけでなく、長い時間軸で破綻しない物理挙動、操作への応答、低遅延の推論を同時に要求する。今回の調達は、この分野が研究発表の場から専用計算基盤を巻き込む産業カテゴリへ移行しつつあることを示している。

Odysseyは2023年にOliver Cameron氏とJeff Hawke氏が設立した。自動運転で培った世界予測の考え方を、道路という狭い対象から一般的な世界シミュレーションへ広げる構想を掲げてきた。今回の資金は、モデル開発、計算基盤、パートナー展開を加速するためのものだ。

調達の焦点はモデル開発と計算基盤の同時拡張にある

OdysseyのシリーズBは、世界モデル企業の資金調達として大きい。既存投資家にはJeff Dean氏、Elad Gil氏、Qasar Younis氏、Kyle Vogt氏、Garry Tan氏などが含まれ、OdysseyはOpenAI、DeepMind、MSL、Recursive、Thinking Machinesの研究者も支援者として挙げている。SiliconANGLEはDecart、AMI Labs、Runwayも大型資金を集めるなか、世界モデル分野が急速に投資対象になっていると位置づけている。

ただし、資金調達競争として読むだけでは今回の意味を取り逃がす。Odysseyが強調したのは、AWSとの関係を深め、Trainium上で世界モデルを最適化することだ。AWSのTrainiumは生成AIの訓練と推論を高性能かつ低コストで行うためのAIアクセラレータで、Trainium3は1チップあたり144GBのHBM3eを持ち、Trn3 UltraServersでは最大144チップ、20.7TBのHBM3e、362 MXFP8 PFLOPsに達する。

世界モデルは通常の動画生成モデルより計算基盤との結びつきが強い。短い映像を一度生成して終えるのではなく、ユーザーやAIエージェントの行動に応じて状態を次々に予測し続ける必要があるからだ。速度が足りなければ操作できず、安定性が足りなければ数秒後に世界が崩れる。モデルの性能だけでなく、クラウド、チップ、ソフトウェアスタック、配信コストが一体で問われる。

Amazon側のRon Diamant氏は、世界モデルを「大規模な計算スループットと厳しい低遅延制約」を持つAIワークロードと説明している。OdysseyにとってAWSは世界モデルを実時間で動かすための計算基盤と共同開発の相手になり、AWSにとっては言語モデル以外の重いAIワークロードをTrainiumに引き込む案件になる。

世界モデルは操作に応じて次の状態を予測する

Odysseyがいう世界モデルは、テキストから映像を生成するモデルの延長ではあるが、仕組みの焦点は異なる。一般的な動画生成モデルはプロンプトを起点に一定尺の映像を生成する方向で進化してきた。世界モデルはユーザーやAIエージェントが途中で取る行動を受け取り、その後の状態を更新し続けることを狙う。

Odyssey-2 Maxの説明では、世界モデルは過去の状態と行動から次の状態を予測する因果的なモデルとして扱われる。映像を作るだけでなく、世界の中で物体がどう動き、人やエージェントの操作にどう反応するかを時間の流れに沿って更新する。Odysseyはこの形式をOdyssey-2シリーズの土台と位置づけている。

この違いは用途に直結する。ロボットの訓練、ゲーム、シミュレーション、防衛、インタラクティブシステムでは、見た目の自然さだけでは不十分だ。ロボットが物体をつかむ、車両が危険な状況を避ける、複数のプレイヤーやAIが同じ空間で動くといった場面では、世界が操作に対して一貫して反応しなければならない。映像の美しさよりも、長い時間で破綻しない物理と相互作用が価値になる。

このため、世界モデルの評価では物理の一貫性が大きな焦点になる。OdysseyはOdyssey-2 Maxについて、物体の力学、熱、素材、多視点整合性などを測るVBench 2の物理サブスコアと、Physical AIベンチマークの物理モデリング項目で評価したと説明している。

Odysseyの直近モデルは物理、音声、複数参加者へ広がる

Odysseyは今回の調達発表で、直近の研究成果を一つの流れとして示した。中心にあるのが2026年4月発表のOdyssey-2 Maxで、同社はこれをこれまでで最大かつ最も強力な汎用世界モデルと説明している。

Odysseyの測定では、Odyssey-2 MaxはOdyssey-2 Proの約3倍の規模で、VBench 2の物理スコアを49.67から58.52へ、PAI-Benchの物理スコアを91.67から93.02へ上げた。同社は120秒以上の生成で評価し、公開されている世界モデルを対象に比較したとしている。独立検証済みの業界標準順位ではなく、Odysseyが示した評価結果として読むべきだが、同社が重視する物理精度の方向性ははっきりしている。

モデル設計でも長時間の相互作用を意識した要素が並ぶ。Odyssey-2 Maxは自己回帰型の拡散トランスフォーマーを採用し、独自のKVキャッシュにより従来より最大20倍長いシーケンスでフルバックプロパゲーションを可能にしたと説明されている。因果的注意機構、潜在空間での行動条件付け、フローマッチング、少ないデノイズ手順で高品質な映像を出す蒸留も挙げられている。

Starchild-1は、世界モデルを視覚だけから音声を含むマルチモーダルな相互作用へ広げる試みだ。Odysseyは2026年5月17日、Starchild-1をリアルタイムのマルチモーダル世界モデルとして発表した。テキスト、音声、行動のストリーミング入力に応じながら、同期した音声と映像を自己回帰的に生成する。一定尺のクリップをオフラインで作る従来の音声付き動画生成とは異なり、途中の入力で世界の進み方を変えることを狙う。

Agora-1は複数の参加者が同じ生成世界を共有する方向の実験だ。Odysseyは2026年5月18日、Agora-1をマルチエージェント世界モデルとして発表し、最大4人のプレイヤーが同じ生成世界でリアルタイムに相互作用できると説明した。参加者の行動から共有世界の状態を維持し、それぞれの視点に映像を配信する。Odysseyはこれを、学習されたゲームエンジンのように機能するものと表現している。

Agora-1の設計で目を引くのは、シミュレーションとレンダリングを分けている点だ。モデルはまずプレイヤーの行動に応じて世界状態がどう変わるかを学び、次にその共有状態を視覚として描く。ゲームのルールもレンダリングも手書きで実装するのではなく、両方をデータから学ぶ。この設計はゲームにとどまらず、ロボティクスや複数視点のシミュレーションにもつながる。

Trainium最適化は、世界モデルの商用化に向けた試金石になる

Odyssey-2 Maxは数百基のNVIDIA Blackwell B200 GPUで訓練されたと説明されている。今回のAWS提携を「すでにTrainiumで訓練されたモデル」と読むのは早い。発表で確認できるのは、AWSを優先クラウドに指定し、Annapurna LabsとTrainium向け最適化に取り組むという段階だ。

それでも、この提携が持つ意味は小さくない。世界モデルが実用に近づくほど、GPUを大量に確保するだけでは足りなくなる。長い時間軸を扱う訓練、操作入力を受けながらの推論、複数ユーザーや複数エージェントの同期、映像と音声の同時生成が重なるからだ。専用チップ上でどれだけ安く、低遅延で、安定して動くかが採用判断を左右する。

AWSはTrainiumを、チップ、サーバー、ネットワーク、Neuron SDK、EKS、SageMaker HyperPodなどを一体で設計したスタックとして説明している。PyTorch、vLLM、Hugging Face、Rayとの互換性も前面に出している。Odysseyのような研究企業にとって、専用シリコンへ最適化しながら開発者の実験速度を保てるかは、モデルそのものと同じくらい重要になる。

未確定の点は多い。Odyssey-2 Maxは非公開ベータで、対象はロボティクス、ゲーム、シミュレーション、防衛、インタラクティブシステムに取り組むパートナーに限られる。価格、一般提供時期、具体的な顧客、Trainium上での性能、第三者によるベンチマーク検証は明らかになっていない。世界モデルが有望な研究分野から実務に耐える基盤へ進むには、派手なデモよりも、破綻しない長時間動作と運用コストの数字が必要になる。

今回の資金調達は、その検証に必要な燃料をOdysseyにもたらした。競争の軸は、生成映像の見栄えを比べる段階から、物理、音、複数エージェント、低遅延インフラを同時に整える段階へ移っている。Odysseyが次に示すべきものは、AIが世界を「それらしく」描けることではなく、利用者やエージェントが中で行動しても世界として扱えるだけの一貫性を保てることだ。

Sources:odyssey.ml

テーマ

この記事はいかがでしたか？

一緒に読みたい・使いたいアイテム

※本リンクから購入いただくと、当サイトの運営・記事制作費に充てられます（Amazonアソシエイト参加）

↑ トップへ戻る

世界モデル開発のOdyssey、3億1000万ドル調達でAWSと計算基盤を拡張

調達の焦点はモデル開発と計算基盤の同時拡張にある

世界モデルは操作に応じて次の状態を予測する

Odysseyの直近モデルは物理、音声、複数参加者へ広がる

Trainium最適化は、世界モデルの商用化に向けた試金石になる

テーマ

この記事はいかがでしたか？

光子を半分に切断すると何が起きる？物理学者が想像もしなかった奇妙な結末

フィンランドが海底ケーブル防衛を実証。錨引きずりを検知するセンサー網により”切断後の復旧”から”切断前の警報”へ

ベルギー発の全固体電池、液体電解質ゼロで465Wh/kgを達成

Microsoft AIトップ、AIが仕事を奪うとの前言を撤回：「AIが奪うのは仕事ではなくタスクである」

白金はもう要らない？東北大が開発した「鉄ベース触媒」が亜鉛空気電池の常識を覆す

接着不要で性能4倍。東北大学が光電融合「CPO」を劇的に加速させる「自己浄化する膜」を開発

ASML、TSMC、imecが2D材料トランジスタの300mmウェハー統合に成功：50nmピッチ到達が切り拓くポストシリコン時代

JX金属が1,200億円を賭けるInP基板：半導体素材の「新しい地政学的武器」とは何か

Microsoft AIトップ、AIが仕事を奪うとの前言を撤回：「AIが奪うのは仕事ではなくタスクである」

光子を半分に切断すると何が起きる？物理学者が想像もしなかった奇妙な結末

調達の焦点はモデル開発と計算基盤の同時拡張にある

世界モデルは操作に応じて次の状態を予測する

Odysseyの直近モデルは物理、音声、複数参加者へ広がる

Trainium最適化は、世界モデルの商用化に向けた試金石になる

テーマ

この記事はいかがでしたか？

関連記事

エージェント3〜5個が限界：「人間がボトルネック」と気づいたOpenAIが作った自律化の仕組み

Google、H100で毎秒1,000トークン超を実現する拡散言語モデル「DiffusionGemma」をリリース

次世代メモリ規格「DDR6」開発が本格始動：Samsung、SK hynix、Micronが描く2028年の商用化ロードマップ