Google DeepMindが、新たな地平を切り拓く世界モデルの最新版「Genie 3」を発表した。テキスト一つで、操作可能な3D世界をリアルタイムに生成するこの技術は、AIが単なる情報処理ツールから「世界の創造主」へと変貌する可能性を示す。このAIは、AGIへの道筋、そしてゲームの未来をどう変えるのか。

AD

「呪文」一つで世界が生まれる。Genie 3の驚異的な能力

2025年8月5日、Google DeepMindは、AI研究の新たなマイルストーンとなる「Genie 3」を公開した。 これは、テキストプロンプトや一枚の画像から、豊かでインタラクティブな仮想世界をリアルタイムで生成する「世界モデル(World Models)」だ。

ユーザーはキーボードを使い、生成された世界を720pの解像度、毎秒24フレームという滑らかさで自由に探索できる。 この体験は、単なる動画生成とは一線を画す。Genie 3はユーザーの操作にリアルタイムで応答し、フレームを逐次生成していくため、まさに「プレイ可能な世界」そのものを創り出すのだ。

特筆すべきは、その驚異的な「記憶力」である。前身のGenie 2がわずか10秒程度しか世界の見た目を維持できなかったのに対し、Genie 3は数分間にわたって視覚的な一貫性を保つことに成功した。 一度視界から外れた建物や木々が、再び戻ってきたときにも同じ姿で存在し続ける。この「長期的な一貫性」こそ、没入感のある仮想世界を実現する上で不可欠な、そして極めて困難な技術的飛躍である。

さらに、Genie 3は「プロンプタブル・ワールド・イベント(Promptable World Events)」と呼ばれる画期的な機能を備える。 これは、探索の途中で「天気を雨に変えて」「新しいキャラクターを登場させて」といったテキストコマンドを入力することで、世界そのものを動的に変化させられる機能だ。 これにより、ユーザーは単なる観察者や探検家ではなく、世界のルールに介入する創造主のような役割を担うことができるのである。

物理エンジン不要の衝撃。AIはいかにして「世界」を学ぶのか

Genie 3の最も革新的な点は、その世界の構築方法にあるのかもしれない。従来のゲームエンジンが、物理法則をプログラムとして記述した「物理エンジン」や、3Dモデルデータを必要とするのとは対照的に、Genie 3はそうした明示的なルールを一切持たない。

では、どうやって物理的な整合性を保っているのか。答えは、モデルのアーキテクチャにある。Genie 3は、次に何が起こるかを1フレームずつ予測・生成する「自己回帰モデル」だ。 膨大な映像データを学習することで、重力とは何か、水はどのように流れるか、光はどう反射するかといった、世界の根源的なルールを自ら「学習」する。

このアプローチは、Web上の無数のテキストデータから言語の構造や意味をAIに学習させるという、大規模言語モデルの思想と通底するものを感じる。データ駆動で世界の法則そのものをモデル化しようという、途方もない野心だ。

DeepMindによれば、Genie 3が達成した数分間の一貫性は、意図してプログラムされたものではなく、モデルの規模と学習データを拡大する中で「創発的」に現れた能力だという。 これは、AIが複雑な世界のシミュレーションにおいて、新たな段階に足を踏み入れたことを示唆しているのではないだろうか。

AD

AGIへの「ゆりかご」か。DeepMindが描く壮大なビジョン

Genie 3はゲームやクリエイティブツールとしての応用が期待されるが、DeepMindが真に見据えるのは、さらに壮大な目標、すなわちAGI(汎用人工知能)の実現である。

AGI開発における大きな課題の一つは、AIエージェントが現実世界のように複雑で予測不可能な環境で学習するための、安全かつ無限の訓練場をいかにして用意するか、という点にあった。Genie 3は、この問題に対する一つの答えとなりうる。テキスト一つで無限の「もしも」の世界を生成できるため、AIエージェントに試行錯誤を通じて学習させるための、まさに理想的な「ゆりかご」となるのだ。

DeepMindは実際に、自社で開発した汎用AIエージェント「SIMA」をGenie 3が生成した世界でテストしている。 「明るい緑のゴミ圧縮機に近づけ」といった指示に対し、SIMAエージェントはGenie 3が生成した世界の中で的確に行動し、目標を達成できたという。 この成功は、Genie 3がAIエージェントの訓練基盤として有効であることを示している。

「ゲームエンジン2.0」の夜明けと、残された課題

この技術は、ビデオゲーム開発の未来を根底から覆す可能性を秘めている。NVIDIAのAI研究者は、Genie 3のような技術を「ゲームエンジン2.0」と表現し、将来的に複雑な3Dアセットやシェーダーの記述が、データ駆動のAIモデルに置き換わる可能性を指摘している。

しかし、その道のりはまだ長い。Genie 3には依然として多くの課題が残されている。

  • 一貫性の限界: 「数分間」は大きな進歩だが、長時間のゲーム体験には「数時間」レベルの記憶力が必要となる。
  • エージェントの能力: AIエージェントは世界を移動できるが、自らの意思で世界に物理的な変化(例:ドアを開ける、物を拾う)を起こす能力はまだ限定的だ。
  • 再現性とコスト: 現実の場所を正確に再現することはできず、その生成には莫大な計算コストがかかると推測される。

Google DeepMindは、この技術の潜在的なリスクを慎重に評価するため、現在は一部の研究者やクリエイターに限定してプレビューを提供している。

Genie 3は、まだ完成された製品ではない。しかし、その存在は、AIが私たちの世界をどう認識し、どう関わっていくのか、その未来像を鮮烈に描き出している。我々は今、AIが物語を語るだけでなく、物語の「舞台」そのものを創造する時代の入り口に立っているのかもしれない。


Sources