AI技術の進化は日進月歩だが、私たちの働き方のみならず、コンテンツ体験を根底から覆す可能性を秘めた動きも活発化している。その最前線に立つスタートアップの一つが、AIラボ「Odyssey」だ。同社は、ユーザーがリアルタイムでAIが生成するビデオを視聴しながら、同時にその世界に介入できるという、まさにSF映画のような「インタラクティブビデオ」技術の初期リサーチプレビューを公開した。これは従来の動画生成技術とは一線を画す物であり、エンターテイメント、教育、シミュレーションなど、あらゆる分野に革命をもたらす「世界モデル」という新たなAIパラダイムの萌芽と言えるかもしれない。
Odysseyが提示する「インタラクティブビデオ」とは
「まるでホロデッキの初期バージョンのようだ」――Odyssey自身がそう表現する「インタラクティブビデオ」は、AIがリアルタイムで想像し、生成する映像の中を、ユーザーがキーボードやコントローラー、将来的には音声を通じて自由に探索し、影響を与えることができる新しいエンターテイメントの形だ。従来のビデオが一方的に情報を伝える「見る」ものだったのに対し、Odysseyの技術は「見る」と「関わる」を融合させ、ユーザーを単なる視聴者から能動的な参加者へと変貌させる。
Odysseyは、自動運転技術のパイオニアであるOliver Cameron氏とJeff Hawke氏によって設立されたAIラボであり、「クリエイターが未だ語られていない物語を語れるようにする」ことをミッションに掲げている。当初は映画やゲーム制作を加速するための世界モデル構築からスタートしたが、その研究を通じて、全く新しいエンターテイメント媒体の可能性を見出したという。特筆すべきは、Pixarの共同創業者であり、Walt Disney Animation Studiosの元社長でもあるEdwin Catmull氏が、この野心的なスタートアップの取締役会に名を連ねている点だ。これは、Odysseyの技術が持つポテンシャルと、クリエイティブ業界への影響力に対する期待の表れと言えるだろう。
現在公開されているリサーチプレビューは、OdysseyのWebサイトから体験できる。森の中の小屋、ショッピングモール、駐車場といった複数の環境が用意されており、ユーザーはWASDキーを使って、まるで一人称視点のゲームのようにその世界を歩き回ることができる。しかし、同社も認めるように、その体験は「グリッチが多く不安定な夢の中を探索しているよう」であり、生成される映像はぼやけ、時に歪み、空間的な一貫性が保たれないこともある。それでも、この技術が持つ「紛れもない新しさ」は、体験した者に強烈な印象を残すはずだ。各環境は体験するたびにAIによって再生成されるため、完全に同じ風景に出会うことはないという点も、この技術のユニークさを示している。
技術の心臓部「世界モデル」:従来のAIビデオ生成との決定的違い
この革新的なインタラクティブビデオ体験を支えているのが、Odysseyが開発する「世界モデル (World Model)」と呼ばれる新しいAIアーキテクチャだ。世界モデルとは、本質的に「アクション条件付きダイナミクスモデル」である。つまり、世界の現在の状態、ユーザーからの入力(アクション)、そして過去の状態とアクションの履歴に基づいて、次の世界の状況をビデオフレームとして予測・生成する。

これは、従来のビデオ生成モデルとは根本的に異なるアプローチだ。一般的なビデオモデルの多くは、クリップ全体を表す構造化された埋め込みを構築し、一度に固定されたフレーム群を生成する。これは、途中で内容が変化する必要のないクリップ生成には適しているが、リアルタイムのインタラクティブ性には不向きだ。一度ビデオの埋め込みが設定されると、ユーザーの入力に応じて柔軟に内容を変更することが難しい。
特徴 | 世界モデル (Odyssey) | 従来のビデオモデル |
---|---|---|
生成単位 | 1フレームごと、アクションに反応して逐次生成 | クリップ全体を一括生成 |
未来の予測 | あらゆる未来が可能 | モデルは最初から結末を知っている(固定された未来) |
インタラクティブ性 | 完全にインタラクティブ。いつでもユーザー入力に即時応答 | 原則なし。クリップは毎回同じように再生される |
リアルタイム性 | リアルタイム生成とストリーミングに最適化 | リアルタイムインタラクションは想定外 |
世界モデルは、ユーザーのアクションに応じて次の1フレームを予測するため、入力と出力の間の遅延を極めて小さくできる。Odysseyのモデルは、ユーザーのキー入力やコントローラー操作といったアクションが発生すると、その情報と直前のフレーム履歴を基に、40ミリ秒という短時間で次のフレームを生成し、ユーザーにストリーミングで送り返す。これにより、ユーザーは自分の操作が即座に映像に反映される、没入感の高いインタラクティブ体験を得られるのだ。

リアルタイム性と安定性の壁:Odysseyはいかに挑むか

しかし、リアルタイムで高品質な世界モデルを構築・運用することは、技術的に極めて困難な挑戦だ。最大の課題の一つが「自己回帰モデリング」に伴う不安定性である。自己回帰モデルは、過去の生成結果を次の入力として再利用するため、わずかな誤差が積み重なり、時間経過とともにモデルが訓練データの分布から大きく逸脱してしまう「ドリフト」現象が発生しやすい。これは、言語モデルのような比較的制約された状態空間を持つモデルよりも、はるかに高次元の状態(ピクセルレベルの視覚情報など)を扱う世界モデルにおいて、より深刻な問題となる。特に、リアルタイム性を追求するためにモデルの複雑さをある程度抑える必要がある場合、この不安定性は顕著になる。
Odysseyは、この課題に対処するため、今回のリサーチプレビューでは「狭い分布モデル (narrow distribution model)」を採用していると説明している。これは、まず広範な世界の映像データで事前学習を行った後、特定の場所(今回のデモで提供されているような環境)を密に撮影した映像データで追加学習(ポストトレーニング)を行うというものだ。このアプローチにより、モデルの一般化能力はある程度犠牲になるものの、特定の環境内での自己回帰生成の安定性を高め、より長時間、破綻なく映像を生成することが可能になったという。
もちろん、これは一時的な対策であり、Odysseyはすでに次世代の世界モデル開発に注力している。同社が公開した次世代モデルの未加工出力とされる映像からは、より豊かなピクセル表現、複雑なダイナミクス、多様なアクション、そして格段に向上した一般化能力が垣間見える。この不安定性の克服と一般化能力の向上は、Odysseyが深く取り組んでいる研究領域であり、今後の進展が期待される。
「現実世界」から学ぶAI:Odysseyの独自アプローチ
Odysseyのもう一つの重要な特徴は、AIモデルの学習データに対するアプローチだ。インタラクティブビデオや世界モデルの研究においては、これまで「Minecraft」や「Quake」といったビデオゲーム環境で学習を行う事例が多く見られた。これらのゲーム環境は、ピクセルが比較的単純で、動きも基本的、可能なアクションも限定的、物理法則も簡略化されているため、アクションがピクセルに与える影響をモデル化しやすいという利点がある。しかし、Odysseyは、こうしたゲーム世界の制約が、モデルの能力に低い上限を設けてしまうと考えている。
そこでOdysseyが目指すのは、現実世界の映像データからピクセルとアクションの両方を学習することだ。現実世界の映像は、ノイズが多く多様性に富み、人々の行動は連続的で予測が難しく、そして物理法則は何よりも「現実」そのものだ。このような複雑なデータからの学習は極めて困難な課題だが、これこそが、これまでにないリアリズムと、歩く・走る・撃つといった従来のゲームロジックを超えた、現実世界における無限のアクションをモデルが学習するための鍵だとOdysseyは信じている。
このビジョンを実現するため、Odysseyは独自のデータ収集手段として、360度バックパック搭載カメラシステムを開発した。これにより、現実世界の風景を高密度にキャプチャし、モデル学習のための質の高い独自データセットを構築している。このアプローチは、公開されているデータのみに依存する他の研究機関との差別化要因となる可能性がある。
リアルタイム体験を支えるインフラとコスト
Odysseyのインタラクティブビデオ体験は、NVIDIA H100 GPUクラスタ(米国とEUに設置)上で稼働しており、最大30フレーム/秒(FPS)でのビデオストリーミングが可能だ。前述の通り、ユーザーのアクションから次のフレームが生成・表示されるまでの時間はわずか40ミリ秒。このリアルタイム性を実現するためのインフラコストは、現時点では提供するビデオの品質に応じて、1ユーザー時間あたり1ドルから2ドル程度だという。
このコストは、モデルの最適化、インフラ投資、そして大規模言語モデル(LLM)開発に伴う関連技術の進歩といった追い風を受け、急速に低下しているとOdysseyは述べている。将来的には、AIによってユニークでインタラクティブな体験が、従来のコンテンツ制作とは比較にならないほど低コストで即座に生成されるようになる可能性を示唆しており、その影響は計り知れない。
デモ体験の実際と未来への展望:エンタメのあり方が変わる日
現在のデモは、技術の初期段階であることを色濃く反映している。生成される環境はぼやけており、ディテールは不鮮明だ。また、移動したり視点を変えたりすると、周囲の風景が突然変化するなど、空間的な一貫性や永続性にも課題が見られる。

しかし、Odyssey自身もこれらの点を率直に認めており、これは「解決済みの研究問題ではない」と強調している。同社は、より忠実にダイナミクスを捉え、時間的な安定性と永続的な状態を向上させるための、より豊かな世界表現の研究を進めている。並行して、単純な移動だけでなく、世界とのより複雑な相互作用を可能にするため、大規模なビデオデータからオープンエンドなアクションを学習し、アクション空間を拡張することにも取り組んでいる。同社が公開した次世代モデルの「失敗例」のビデオクリップ群は、その研究の最前線で格闘している様子をユーモラスに伝えつつ、技術的な課題の大きさと、それを乗り越えようとする野心を示している。
Odysseyが描く未来は壮大だ。絵画、書籍、写真、映画、ラジオ、ビデオゲーム、VFX、ソーシャルメディア、ストリーミングと、新たなテクノロジーが常に新しい物語の語り方を生み出してきた歴史を踏まえ、同社は「インタラクティブビデオこそが次に来る」と断言する。将来的には、エンターテイメント、広告、教育、トレーニング、旅行など、今日ビデオとして存在するあらゆるものがインタラクティブビデオへと進化し、それら全てがOdysseyの技術によって動く世界を目指している。まさに「世界シミュレータ」と呼ぶべき究極の目標だ。
業界の動向とクリエイターとの共存は可能か?
世界モデルの開発競争は激しさを増している。Google DeepMindは物理世界をシミュレートするAI開発チームを発足させ、著名なAI研究者であるFei-Fei Li氏が率いるWorld Labsは単一の写真からインタラクティブな3Dシーンを生成するAIを発表。MicrosoftはAI生成による「Quake II」のデモを公開し、Decartはリアルタイムでプレイ可能な「Minecraft」のAIシミュレーションを開発している。
こうした技術の急速な進展は、クリエイティブ業界に大きな期待と同時に、深刻な懸念ももたらしている。Wired誌の調査では、一部のゲームスタジオがAIをコスト削減や人員削減の手段として利用し始めている実態が報じられた。また、アニメーションギルド(ハリウッドのアニメーターや漫画家の労働組合)が委託した2024年の調査では、今後数ヶ月で米国の映画、テレビ、アニメーション業界の10万人以上の雇用がAIによって混乱にさらされると推定されている。
このような状況に対し、Odysseyは「クリエイティブな専門家を置き換えるのではなく、彼らと協力する」という姿勢を明確に打ち出している。「インタラクティブビデオは、従来の制作の制約やコストから解放され、オンデマンドで物語を生成し探求できる、全く新しいエンターテイメントの扉を開く」とし、クリエイターに新たな表現手段を提供することを目指している。このメッセージが、不安を抱えるクリエイターたちにどこまで届くか、そして実際にどのような協業が生まれるのかは、今後の重要な焦点となるだろう。
まとめ:Odysseyが切り拓く「世界シミュレータ」への道
Odysseyが公開したインタラクティブビデオのリサーチプレビューは、AIによるコンテンツ生成の未来を垣間見せる、刺激的な一歩だ。その核心にある「世界モデル」という概念は、単なるビデオ生成技術の枠を超え、現実世界そのものをシミュレートし、その中で私たちが自由に活動できるような、まさにSFの世界で描かれてきた夢の実現に繋がる可能性を秘めている。
もちろん、現状の技術はまだ初期段階であり、克服すべき課題も多い。しかし、Odysseyの野心的なビジョン、独自のデータ収集アプローチ、そしてPixar共同創業者のような業界重鎮からの支持は、この分野の急速な発展を予感させる。
私たちは、AIが生成する世界を見て、触れて、そしてその中で新たな物語を紡ぎ出す時代の入り口に立っているのかもしれない。
Source