テキスト、画像、そして動画。生成AIが次々と人間の創造領域を拡張していく中で、AI研究の世界的な第一人者であるFei-Fei Li氏が共同設立したスタートアップ「World Labs」が、業界の潮流を大きく変えうる可能性を秘めた3D世界生成モデル「Marble」の一般公開に踏み切った。これまで大規模言語モデル(LLM)を中心とした現在のAI開発競争が、物理世界を理解し、操作する「空間知能(Spatial Intelligence)」という、より壮大なフロンティアへと移行する時代の幕開けを告げる、極めて重要なマイルストーンと言えるだろう。
AIの進化、言語から「世界」へ ― 新たなフロンティアの幕開け
この数年間、我々は生成AIの驚異的な進化を目の当たりにしてきた。人間のように自然な対話を行うチャットボットから、写実的な画像を生成するAI、そして短い動画クリップを創り出すAIまで、その進化はとどまるところを知らない。しかし、スタンフォード大学人間中心AI研究所(HAI)の共同所長も務めるFei-Fei Li氏は、これらのAIが持つ根源的な限界を指摘する。
彼女が自身のSubstackで発表した一種のマニフェスト「From Words to Worlds: Spatial Intelligence is AI’s Next Frontier」によれば、現在のLLMは「暗闇の中にいる言葉の職人」であり、「雄弁だが経験に乏しく、知識はあっても現実世界に根差していない」存在だ。AIは膨大なテキストデータを学習し、言語的なパターン認識には長けているが、我々人間が当たり前のように持つ、物理世界に対する直感的な理解を欠いている。
Li氏が提唱する「空間知能」とは、まさにこの欠落を埋めるための概念だ。それは、物理的・幾何学的な空間を認識し、モデル化し、推論し、そしてその中で行動する能力を指す。私たちが車の車庫入れをする際にバンパーと壁の距離を想像したり、混雑した歩道をぶつからずに歩いたり、あるいは科学者が分子の3Dモデルを組み立ててDNAの二重らせん構造を発見したりする際、その根底にあるのが空間知能である。Li氏は、 perception(知覚)とaction(行動)のループこそが知能進化の原動力であり、空間知能は人間の認知能力を支える「足場」そのものであると主張する。
今日の最先端AIは、画像の被写体を認識できても、その奥行きや物体の大きさ、向きを正確に把握することは苦手であり、ましてや物理法則を理解して次の状態を予測することはできない。World LabsとMarbleの登場は、このAIの限界を突破し、言語理解の次なるステージとして、AIに「世界」そのものを理解させるという壮大な挑戦の始まりを意味しているのである。
世界生成AI「Marble」とは何か? ― その機能と技術的特徴
2ヶ月間の限定ベータテストを経て一般公開されたMarbleは、ユーザーがテキスト、画像、動画、あるいは大まかな3Dレイアウトといった多様な形式のプロンプトを入力することで、探索可能な3D環境を生成する世界モデルだ。その最大の特徴は、競合他社がデモを公開しているリアルタイム生成モデルとは一線を画す点にある。


OdysseyやGoogleのGenieといったモデルがユーザーの探索に応じて「オンザフライ」で世界を生成するのに対し、Marbleは「永続的でダウンロード可能な3D環境」を生成する。これは些細な違いではない。オンザフライ生成では、視点を変えるたびに世界が微妙に変化する「モーフィング」や不整合が発生しやすいが、Marbleのアプローチでは一度生成された世界の幾何学的な一貫性が保たれる。
これにより、クリエイターは生成した世界を安心して編集・拡張できるだけでなく、業界標準のフォーマットでエクスポートし、既存の制作パイプラインに組み込むことが可能になる。
Marbleを支える主要な技術と機能:
- 多様な入力と高品質な出力: 単一の画像だけでなく、複数の画像や短い動画クリップを入力することで、より忠実で欠落の少ない3D空間(デジタルツイン)を生成できる。出力は、VFX業界で注目される高品質なレンダリング形式「Gaussian Splats」や、ゲームエンジンで広く利用される「Triangle Meshes」、物理演算用の「Collider Meshes」、さらにはピクセル単位でカメラ制御が可能な動画など、プロの要求に応える多様な形式に対応している。
- 補足:Gaussian Splattingとは? これは3Dオブジェクトや空間を表現するための先進的な手法である。シーンを数百万から数十億個の微細な半透明の粒子(splat)の集合体として表現する。各粒子は中心の密度が最も高く、端に向かって滑らかに透明になる。これらの粒子が大量に重なり合うことで、従来のメッシュ構造では表現が難しかった複雑な光の反射や半透明な質感を、極めてリアルに再現できる。
- AIネイティブな編集ツール「Chisel」: Marbleの革新性は、単なる生成能力に留まらない。World Labsは、「Chisel」と名付けられた実験的な3Dスカルプティングモードを導入した。これは、ユーザーがまず壁や箱といった単純な形状で空間の構造(レイアウト)を大まかに作り、その後にテキストプロンプトで「サイバーパンク風の未来都市」「苔むした古代遺跡」といったスタイル(見た目)を適用するというものだ。これにより、「構造とスタイルが分離」され、クリエイターはAIに創造性の主導権を奪われることなく、自身のビジョンをより直感的に、かつ正確に反映させることが可能になる。
- 世界の拡張と合成: 生成した世界の一部が不完全な場合、その領域を指定して「拡張」を指示し、AIにさらなるディテールを生成させることができる。さらに、「Composer Mode」を使えば、全く異なる複数の世界をシームレスに結合し、広大な空間を創造することも可能だ。これは、個々のシーンを制作し、それらを組み合わせて壮大な物語世界を構築するような、より高度なクリエイティブワークフローを可能にすることを示唆している。
World Labsを率いるドリームチーム
World Labsのビジョンを理解する上で、その創設者チームの顔ぶれを見過ごすことはできない。彼らはそれぞれが3DビジョンとAIの分野で金字塔を打ち立ててきた、まさに「ドリームチーム」である。
- Fei-Fei Li: 現代AIの爆発的進化のきっかけとなった大規模画像データセット「ImageNet」の立役者。彼女のビジョンが、World Labs全体の方向性を決定づけている。
- Ben Mildenhall: 3Dシーン再構築に革命をもたらした技術「NeRF (Neural Radiance Fields)」の共同開発者。NeRFは、複数の2D画像からその場の光の場を学習し、任意の視点からのリアルな画像を生成する技術であり、Marbleの基盤技術に深く関わっていると考えられる。
- Justin Johnson: ある画像のスタイルを別の画像に適用する「リアルタイムスタイル転送」を開発。この技術はMetaやSnapなどにも採用され、生成AIにおける表現の多様性を大きく前進させた。Marbleの「Chisel」におけるスタイル適用機能に、彼の知見が活かされていることは想像に難くない。
- Christoph Lassner: 高速な球体ベースのレンダラー「Pulsar」を開発。この研究は、前述のGaussian Splattingへの道を開いたとされる。高品質な3D世界のリアルタイムレンダリングにおいて、彼の専門知識は不可欠だ。
このチーム構成は、World Labsが単に流行りのAI技術を追うのではなく、3D空間の「認識(NeRF)」「表現(Gaussian Splatting)」「操作・編集(スタイル転送)」という、空間知能を実現するための根源的な技術要素を深く理解し、それらを統合しようとしていることを明確に示している。彼らの経歴そのものが、World Labsが目指す技術的な到達点の高さを物語っているのだ。
「空間知能」が解放する可能性 ― 産業界へのインパクト
Marbleの登場は、特定の産業にパラダイムシフトをもたらす可能性を秘めている。Fei Fei Li氏が描く未来像に基づき、その具体的なインパクトを考察する。
創造性の民主化:ゲーム、VFX、建築デザインの変革
従来、高品質な3D環境の構築は、専門的なスキルを持つアーティストチームが膨大な時間とコストをかけて行う、労働集約的な作業だった。Marbleはこのプロセスを根底から覆す。
- ゲーム開発: インディーゲーム開発者や小規模スタジオが、これまで大企業でしか実現できなかったような広大で緻密な背景環境やアンビエント空間を迅速に生成し、ゲームエンジン(Unreal EngineやUnity)にインポートしてインタラクティブな要素を追加できる。これにより、開発者は世界の構築ではなく、ゲームプレイそのものの創造に集中できるようになる。
- VFX・映画制作: 映画監督やVFXアーティストは、ロケーションスカウトやセット建設の手間を大幅に削減し、プリビジュアライゼーション(撮影前の視覚的設計)の段階で多様なシーンを瞬時に試すことができる。AIビデオ生成が抱える一貫性の欠如やカメラ制御の難しさといった問題を、3Dアセットを生成することで回避できる点も大きい。
- 建築・デザイン: 建築家は、設計の初期段階で顧客と共に仮想空間を歩き回り、リアルタイムでデザインを修正できる。工業デザイナーは、製品が実際に置かれる環境をシミュレートし、そのインタラクションを検証することが容易になる。
ロボット工学のブレークスルー:シミュレーションから現実世界へ
ロボットが現実世界で自律的に活動するためには、無数の状況に対応できる頑健な知能が必要だが、そのための訓練データを現実世界だけで収集するのは非効率かつ危険が伴う。ここで世界モデルが決定的な役割を果たす。Marbleのようなモデルが生成するリアルな仮想環境は、ロボットにとって理想的な訓練場となる。物理法則をシミュレートした環境で無数の試行錯誤を繰り返すことで、ロボットは現実世界に展開される前に、より安全かつ効率的に多様なスキルを習得できる(シム・トゥ・リアル)。
科学と教育の未来:分子構造から歴史的空間まで
長期的には、空間知能の影響はエンターテインメントや製造業に留まらない。
- 科学研究: 創薬の分野では、タンパク質の複雑な3D構造や分子間の相互作用をシミュレートし、新たな治療薬の候補を探索するプロセスを加速させる。材料科学では、未知の特性を持つ新素材の構造を仮想空間で設計・検証することが可能になる。
- 医療・ヘルスケア: 放射線科医が医用画像(CTやMRI)から病変を発見するのを支援したり、外科医が複雑な手術のトレーニングをリアルなシミュレーションで行ったりすることができる。
- 教育: 生徒たちは、教科書で学ぶだけの細胞の内部構造や古代ローマの街並みを、VRヘッドセットを通じて実際に歩き回り、インタラクティブに学ぶことができるようになる。抽象的な概念を具体的な空間体験として理解することは、学習効率を飛躍的に向上させるだろう。
価格と利用方法 ― 誰でも「世界の創造主」になれる時代へ
World Labsは、プロのクリエイターからAI技術に興味を持つ一般ユーザーまで、幅広い層がMarbleを試せるよう、段階的なサブスクリプションプランを用意している。
価格プランは以下の通りである。(1ドル=155円で換算)
- Free: 無料。テキスト、画像、パノラマ入力から最大4回の世界生成が可能。
- Standard: 月額20ドル(約3,100円)。最大12回の生成に加え、複数画像や動画の入力、高度な編集機能が利用可能。
- Pro: 月額35ドル(約5,425円)。最大25回の生成、シーン拡張機能、そして生成した世界の商用利用権が含まれる。
- Max: 月額95ドル(約14,725円)。最大75回の生成が可能で、Proプランの全機能を利用できる。
この価格設定は、個人クリエイターや小規模チームでも十分に手が届く範囲であり、World Labsがトップダウンのエンタープライズ向け展開だけでなく、ボトムアップでのコミュニティ形成とエコシステム構築を重視している姿勢の表れと言えるだろう。
LLM覇権競争の次に来る「世界モデル」開発競争の号砲
Marbleの一般公開が持つ真の戦略的重要性は、AI業界の巨大なパラダイムシフトを予感させる点にある。現在、OpenAI、Google、Metaをはじめとする巨大IT企業は、LLMの性能向上を巡って熾烈な開発競争を繰り広げている。しかし、言語は人間の知能の一側面に過ぎない。Marbleの登場は、この競争の主戦場が、言語空間から物理・3D空間へと拡大・移行し始めることを示すものだ。
Googleが研究プレビュー段階にある「Genie」でこの分野への野心を示しているように、水面下では各社が次世代の「世界モデル」開発に莫大なリソースを投じていることは確実だ。World Labsは、2億3000万ドルという巨額の資金調達と、この分野における世界最高峰の頭脳を結集することで、巨大IT企業に先んじて商用プロダクトを市場に投入し、先行者利益を確保しようとしている。
これは単に技術の優劣を競うだけでなく、未来のプラットフォームの覇権を巡る争いでもある。かつてPCにおけるOS、モバイルにおけるアプリストアがそうであったように、人々がデジタルコンテンツを創造し、体験するための基盤となる「世界生成エンジン」を制する者が、次の時代のデジタル経済圏を支配する可能性を秘めているからだ。
一方で、特にゲーム業界などでは、AIによる雇用の喪失やコンテンツの質の低下、知的財産権の問題など、生成AIに対する懸念も根強い。技術の進歩は、常に社会的な課題と表裏一体である。空間知能という強力な技術が普及するにつれて、我々はこれらの課題に真摯に向き合い、人間中心のルール作りを進めていく必要に迫られるだろう。
Li氏は、彼女のマニフェストを「AIは人間の能力を拡張するものでなければならず、それに取って代わるものではない」という信念で締めくくっている。Marble、そしてそれが切り拓く空間知能の時代は、AIが単なる情報処理ツールから、我々の創造性、探究心、そして現実世界そのものと深く結びつく真のパートナーへと進化していく、壮大な旅の始まりなのである。
Sources
- World Labs: Marble: A Multimodal World Model
- Marble
- Dr. Fei-Fei Li: From Words to Worlds: Spatial Intelligence is AI’s Next Frontier