Google DeepMindは、たった一枚の画像から最長1分間プレイ可能な3D環境を生成できるAIシステム「Genie 2」を発表した。同社が「Foundation World Model」と呼ぶこの技術は、物理演算やリアルタイムレンダリングを実現し、ゲーム開発やAI研究に新たな可能性を示している。
革新的な3D環境生成能力
Genie 2は、大規模な動画データセットで訓練された自己回帰型潜在拡散モデルをベースに構築されている。システムの動作は二段階のプロセスで実現される。まず、DeepMindの最新テキスト生成画像モデルImagen 3によって生成された画像、もしくはユーザーが提供する単一の画像をシステムに入力する。続いて、この画像を基に720p解像度の3D環境がリアルタイムで構築され、キーボードとマウスによる操作が可能となる。
DeepMindによると、このモデルは以下の様な様々なインタラクティブ環境でAIエージェントのトレーニングとテストを行うことができる:
- アクションコントロール可能: Genie 2は、キーボードやマウス入力のようなアクションに反応し、人間やAIが環境と相互作用することを可能にします。 例えば、矢印キーを押すと、キャラクターを動かさなければならないことを理解するので、木や雲のようなオブジェクトを間違えて動かすことはない。
- ロングホライゾン・メモリー: Genie 2は、視界から外れた世界の一部を記憶し、シーンに戻ってきたときにレンダリングできるため、シミュレーションがより連続的でリアルに感じられる。
- オンザフライの新コンテンツ: 時間の経過とともに世界の整合性を維持しながら、一貫性のある新コンテンツを作成できるため、環境は常に信じられる方法で進化する。
- エマージェント機能: Genie 2は、物理学や重力、照明などの複雑な相互作用をモデル化できる: Genie 2は、物理、重力、照明のような複雑な相互作用をモデル化し、キャラクタをアニメーション化したり、プレイアブルキャラクタ(NPC)以外のキャラクタの行動をシミュレートすることも可能だ。 水のエフェクトからキャラクタの動き、スモークまで扱える。
- 反実仮想シミュレーション: 同じ出発点から異なる経路を生成することができる。 この機能により、研究者はさまざまな結果をテストすることができ、トレーニング目的でさまざまな経験をシミュレートする方法を提供する。
- 現実世界の画像プロンプト: Genie 2は、コンピュータが生成した画像だけでなく、実世界の写真をプロンプトとして使用することもできる。
- ラピッドプロトタイピング: 研究者はGenie 2を使ってインタラクティブな体験を素早く作成することができ、様々な環境でのテストやトレーニングを素早く行うことができる。 コンセプトアートやドローイングを完全なインタラクティブワールドに変えることが可能だ。
特に、Genie 2の環境生成における最も重要な技術的革新は、物理シミュレーションと空間一貫性の実現にある。システムは重力、物体同士の衝突判定、水の流体力学といった基本的な物理法則を適切に処理する。さらに、複雑な照明効果や反射、煙の挙動といった視覚効果もリアルタイムでレンダリングされる。これらの要素は単なる見た目の演出ではなく、環境内でのインタラクションに影響を与える実用的な機能として実装されている。
Genie 2 makes it really easy to rapidly prototype diverse interactive experiences. For example, you can prompt it with concept art, and step into the world.
— Tim Rocktäschel (@rockt.ai) 2024年12月5日 1:23
[image or embed]
特に注目すべきは、「ロングホライゾン・メモリー」と呼ばれる機能だ。従来の環境生成AIの多くは、プレイヤーの視界から外れた領域を記憶できず、再訪問時に環境を再生成する必要があった。これに対してGenie 2は、視界外の環境情報を保持し続けることが可能で、プレイヤーが同じ場所に戻ってきた際にも一貫性のある環境を提供できる。また、一人称視点、三人称視点、アイソメトリック視点など、複数の視点切り替えにも対応している。
ただし、現時点でのシステムには明確な制限も存在する。環境の一貫性を保持できる時間は最長で1分間に限られ、多くの場合は10〜20秒程度で安定性が低下する。また、最高品質の出力を得るためには非蒸留ベースモデルを使用する必要があり、リアルタイムでの実行には品質を犠牲にした蒸留版モデルを使用する必要がある。これらの制限は、将来的な研究開発による改善が期待される課題となっている。
開発者向けのラピッドプロトタイピング
Genie 2は、ゲームを全て構築するような類いの物ではないが、ゲーム開発における環境制作のワークフローを根本から変革する可能性を秘めたものだ。従来のゲーム開発では、コンセプトアートから実際にプレイ可能な環境を作り出すまでに、3Dモデリング、テクスチャ制作、物理演算の実装など、複数の工程と専門的なスキルが必要とされてきた。しかしGenie 2は、単一の画像から即座にインタラクティブな3D環境を生成することで、この工程を大幅に短縮することを可能にした。
特筆すべきは、入力となる画像の柔軟性である。システムはImagen 3で生成された高品質な画像だけでなく、手描きのコンセプトアートや実世界の写真からも環境を生成できる。これにより、アーティストやデザイナーはラフなスケッチを描くだけで、アイデアを即座に検証可能な形に具現化できる。生成された環境には、重力や衝突判定といった物理法則、ダイナミックな照明システム、複雑な粒子効果まで実装されており、プロトタイプとして十分な品質を備えている。
さらに、Genie 2はDeepMindが開発した自然言語理解AIエージェント「SIMA」との統合も実現している。開発者は生成された環境内でSIMAを動作させ、「青いドアを開ける」「建物の裏側を探索する」といった自然言語による指示でAIの挙動をテストできる。この機能により、ゲームの自動テストやAIキャラクターの行動検証が効率化される可能性がある。
Genie 2 makes it really easy to rapidly prototype diverse interactive experiences. For example, you can prompt it with concept art, and step into the world.
— Tim Rocktäschel (@rockt.ai) 2024年12月5日 1:23
[image or embed]
DeepMindの研究者Tim Rocktäschel氏は、この技術について「2年前にGenie 1を開始した時点で、Foundation World Modelが将来的にはembodied AGI(身体性を持つ汎用AI)のトレーニングのための無限のカリキュラムを生成できるようになると想像していまし。今日、私たちはその未来に向けて大きな一歩を踏み出しました」と述べている。実際、Genie 2により生成される多様な環境は、AIエージェントの訓練データとしても活用できる。従来のAI訓練では、限られた数の事前定義された環境でしか学習できなかったが、Genie 2を用いることで、無限に近い様々なシナリオでの訓練が可能となる。
ただし、この技術の実用化には依然として課題が残されている。環境の一貫性を保持できる時間が限られていることに加え、生成される環境の細部の品質や、複雑なゲームメカニクスの実装といった点で、さらなる改善が必要とされている。また、クリエイティブ業界における雇用への影響も懸念されており、この技術が従来の開発プロセスを補完するのか、それとも置き換えていくのかについては、慎重な議論が必要とされている。
Xenospectrum’s Take
Genie 2の登場は、ゲーム開発のデモクラタイゼーションとAI研究の加速という二つの重要な意味を持つ。しかし、20秒程度で一貫性を失う現在の制限や、学習データの著作権問題など、実用化へのハードルは依然として高い。
特に興味深いのは、Tim BrooksやTim Rocktäschelといった著名研究者の採用からも窺える、Googleの世界モデル研究への本気度だ。もっとも、ActivisionなどがAIを人員削減の口実に使い始めている現状を考えると、この技術の普及が創造産業に与える影響には複雑な議論が必要となるだろう。
Source
- Google DeepMind: Genie 2: A large-scale foundation world model
コメント