Google DeepMindが、AIによるビデオ生成の分野に新たな地平を切り開く可能性を秘めた新技術「Force Prompting」を発表した。ブラウン大学との共同研究によって開発されたこの技術は、3Dモデルや複雑な物理エンジンを一切使用せずに、まるで現実世界のように物体が力に反応して動くリアルな動画を生成することを可能にする。ユーザーは「風を吹かせる」「対象物を軽く突く」といった直感的な指示を与えるだけで、AIが生成する映像内のオブジェクトを自然かつ物理法則に則った形で操ることができるという。これは、AIが単にピクセルを操作するだけでなく、世界の物理的構造や法則性を理解し始めたことを示す重要な一歩であり、コンテンツ制作のあり方を根底から変え、インタラクティブな体験を新たな次元へと引き上げる可能性を秘めたものかも知れない。
物理演算の常識を覆す「Force Prompting」の核心
従来のリアルな動きを伴うCGアニメーションやシミュレーションでは、対象物の3Dモデルを作成し、その上で複雑な物理演算エンジンを用いて動きを計算するのが一般的であった。しかし、「Force Prompting」はこの常識を覆す。
本技術の核心は、3Dモデルや物理エンジンへの依存からの脱却にある。代わりに、AIモデルが大量のデータから学習した「直感的な物理法則」に基づいて、与えられた「力」に対して物体がどのように反応するかを予測し、動画として生成するのだ。
ユーザーは、主に2種類の「力」をAIに指示できる。
- グローバルな力 (Global Forces): シーン全体に均一に作用する力。例えば、画面全体に風を吹かせ、髪や衣服、旗などを自然になびかせるといった表現が可能だ。
- ローカルな力 (Local Forces): 特定のポイントに局所的に作用する力。例えば、花びらを指で軽く突いたり、ボールを押して転がしたりといった、より細やかなインタラクションを実現する。
これらの力は、ベクトル場としてシステムに入力される。ユーザーが力の方向と強さを指定すると、その情報がベクトルデータとしてAIに伝達され、AIはそれに応じた自然で滑らかな動きを動画フレームとして生成する。生成されるビデオは、現行のデモンストレーションでは49フレームで構成されている。
この直感的なインターフェースは、専門的な知識を持たないユーザーでも、物理現象を伴うリアルな動画コンテンツを容易に作成できる道を開くものであり、大きな革新と言えるだろう。
合成データから「物理の勘所」を学ぶAIの驚異的な学習能力
「Force Prompting」の能力を支えているのは、Google DeepMindが開発に関わった既存の強力なビデオ生成モデルと、巧妙に設計された学習プロセスである。
ベースとなっているのは「CogVideoX-5B-I2V」というビデオモデルだ。これに、物理的な制御信号を処理するために「ControlNet」モジュールが追加されている。全体のシグナル生成は、近年のAI分野で主流となっている「Transformer」アーキテクチャを通じて行われる。
特筆すべきは、その学習効率と使用されるデータである。研究チームによれば、学習にはNVIDIA A100 GPUをわずか4基使用し、訓練期間もたったの1日だという。そして、この短期間の学習に用いられた訓練データは、すべて合成データ(Synthetic Data)なのである。具体的には、以下のような動画データセットが用いられた。
- 様々な風の条件下で旗がはためく動画:約15,000本
- 球体が転がる動画:約12,000本(ローカルフォース用)
- 花が衝撃に反応する動画:約11,000本(ローカルフォース用)
合計で約38,000本の合成動画が学習に利用された。なぜ現実世界の映像ではなく、合成データを用いたのか? 研究論文によれば、現実世界で「力」の情報を正確に捉え、それに対応する高品質な動画をペアで大量に収集することは非常に困難であるためだ。そこで研究チームは、Blenderなどのツールを用いて、力の条件とそれによって生じる物体の動きを正確に記録した合成動画を自ら生成したのである。
さらに興味深いのは、学習データに含まれるテキスト記述の工夫だ。動画と共に与えられるテキストプロンプト(例:「そよ風に揺れる旗」)に、「風」や「泡」といった物理現象に関連するキーワードを意図的に含めることで、モデルが明示的な物理法則の数式を教えられなくとも、これらの言葉と視覚的な動きのパターンを結びつけ、力と運動の関係性を自律的に学習することを促した。
このアプローチにより、AIはあたかも「物理の勘所」を掴むかのように、合成データで学習した知識を、見たことのない新しいオブジェクトや多様なシーン、異なる素材に対しても応用する能力(汎化能力)を獲得したのである。
「まるで生きているかのよう」な汎化能力と直感的物理の萌芽
「Force Prompting」が真に注目されるべき点は、その驚異的な汎化能力と、AIが「直感的な物理」を理解し始めていることを示唆する挙動にある。
学習に用いられたのは、旗、球、花といった限られた種類のオブジェクトの合成動画のみである。にもかかわらず、モデルは学習データには含まれていない全く新しい物体や、多様な材質、複雑な背景を持つシーンに対しても、入力された力に応じて自然な動きを生成することができる。例えば、髪が風になびく様子、洗濯物が揺れる様子、煙が風に流される様子などを、それ専用の学習なしに再現するのである。

さらに驚くべきことに、モデルは単純な物理法則を暗黙的に学習している兆候を見せる。その一つが「質量の理解」だ。研究論文では、同じ力を加えた場合、サッカーボール(軽いと想定される)はボウリングボール(重いと想定される)よりも遠くまで転がるという、直感的な物理現象をモデルが再現することが示されている。また、空の洗濯カゴと中身の詰まった洗濯カゴでは、同じ力で押しても動き方が異なるといった、より複雑な質量差も認識し始めているという。これは、AIが単に表面的なパターンを模倣しているのではなく、物体の「重さ」という概念を捉え、それが運動にどう影響するかを理解しつつあることを示唆している。
ユーザー評価においても、「Force Prompting」は高い評価を得ている。テキストプロンプトのみで動きを制御しようとする従来のビデオ生成モデルや、モーショントラック(物体の軌跡を指定する)に基づいて動きを制御するモデルと比較して、「Force Prompting」はユーザーが意図した「力」と生成された「動き」の一致度や、動きのリアリズムにおいて明らかに優れていると評価された。
また、実際の物理シミュレーションエンジンを内部に持つ「PhysDreamer」というモデルと比較しても、「Force Prompting」は力と動きのマッチングやリアリズムの点で勝る結果を示した(ただし、生成される画像の純粋な視覚的品質ではPhysDreamerが優位だった)。これは、物理エンジンを内蔵せずとも、AIが学習によって物理的にもっともらしいインタラクションを効率的に生成できる可能性を示している。
アブレーション研究が解き明かす汎化の鍵:多様性とキーワード
研究チームは、なぜ「Force Prompting」がこれほど高い汎化能力を持つのかを解明するため、アブレーション研究(モデルやデータの要素を一部取り除いて性能変化を調べる手法)も行っている。その結果、汎化能力の鍵となるいくつかの要素が明らかになった。
- 合成データセットの「多様性」の重要性:
- ローカルフォース(点力)の場合: 学習データに、力を加える対象の物体だけでなく、その周囲に「邪魔するオブジェクト(distractor objects)」を配置することが、力の正確な局所化(意図した物体だけに力を作用させる能力)に大きく貢献した。邪魔するオブジェクトがない場合、例えば一つの風船を突くと、周りの風船まで不自然に動いてしまう傾向が見られたという。
- グローバルフォース(風など)の場合: 背景のバリエーションや、シーン内のオブジェクト数(例えば旗の数)の多様性が重要だった。背景が常に同じだったり、旗が常に一本だったりすると、モデルは前景と背景を区別したり、布以外の素材(煙や紙吹雪など)に風の力を汎化させたりすることが困難になった。
- テキストプロンプトにおける「特定のキーワード」の効果:
- 学習時に「風 (wind)」「そよ風 (breeze)」「吹く (blow)」といった力に関連するキーワードをテキストプロンプトに含めることが、モデルが多様な風のシナリオに対して適切に反応する能力を向上させることが判明した。これらのキーワードなしで学習した場合、例えば霧が静止したままだったり、ランタンが不自然に崩れたりといった失敗例が増加したという。
これらの結果は、AIが物理現象を学習する上で、いかに多様な文脈情報と適切な言語的ヒントが重要であるかを示している。
DeepMind CEO Demis Hassabis氏の視点
「Force Prompting」は画期的な技術ではあるものの、まだ完璧ではない。研究チームも、複雑なシーン、例えば煙が風力に正しく反応しなかったり、人間の腕の動きが時折、布のように不自然に軽くなってしまったりするケースがあることを認めている。現時点では、精密な物理シミュレーションを完全に置き換えるものではない。
しかし、この技術が持つポテンシャルは計り知れない。Google DeepMindのCEOであるDemis Hassabis氏は、この研究成果に触れ、「(Googleの最新ビデオモデルである)Veoのような次世代のAIビデオモデルは、物理法則を理解し始めています。これらは単なるテキストや画像の処理を超え、世界の物理的構造そのものを表現し始めており、これはより汎用的なAI(AGI)に向けた重要なステップです」と述べている。Hassabis氏はまた、将来のAIシステムが、データから学ぶだけでなく、シミュレーション環境での経験を通じて継続的に能力を最適化し、強化していく可能性を示唆している。
「Force Prompting」のプロジェクトページ(https://force-prompting.github.io/)では、実際にユーザーが力を加えるインタラクティブなデモが公開されており、その驚くべき能力の一端を体験することができる。
「Force Prompting」が拓く未来
「Force Prompting」は単なる新しいビデオ生成ツールに留まらない、AIの進化における大きな転換点となる可能性を秘めていると言えるだろう。
この技術の真髄は、AIが「世界の仕組み」の一端を直感的に理解し始めた点にあるのではないだろうか。これまでAIは、大量のデータからパターンを認識し、それを模倣することに長けていた。しかし「Force Prompting」は、その先にある「なぜそう動くのか」という物理的な因果関係に迫ろうとしているように見える。
これがさらに発展すれば、以下のような未来が現実味を帯びてくるだろう。
- コンテンツ制作の革命と民主化: 映画やゲームの特殊効果、アニメーション制作において、専門的なスキルや高価なソフトウェアなしに、誰もが直感的にリアルな物理現象を映像に組み込めるようになる。教育コンテンツや科学的な可視化にも応用可能だ。
- インタラクティブエンターテイメントの進化: ユーザーの操作に応じて、よりリアルで没入感の高い反応を示すゲームやVR/AR体験が実現する。AIキャラクターが物理法則を理解した上で行動する、より知的なインタラクションも期待できる。
- 「ワールドモデル」としてのAIの進化: AIが現実世界をシミュレートする能力(ワールドモデル)は、ロボット工学や自動運転、さらには科学的発見といった分野で極めて重要だ。「Force Prompting」のような技術は、AIがより現実に近い形で世界を理解し、その中で行動計画を立てるための基盤となり得る。
- 検索と情報アクセスの変化: 将来的には、検索エンジンが「この橋はどのくらいの風に耐えられますか?」といった問いに対し、テキスト情報だけでなく、インタラクティブな物理シミュレーションを提示するようになるかもしれない。
もちろん、AIが物理法則を「真に理解」するにはまだ長い道のりがあるだろう。しかし、「Force Prompting」が示した方向性は、AIがデータ駆動型のアプローチを通じて、人間の直感に近い形で物理世界を把握し、それと対話する能力を獲得しつつあることを明確に示している。
この技術がもたらす未来は、計り知れない可能性に満ちている。今後の発展と、それが社会にどのような変革をもたらすのか、引き続き注目していきたい。
論文
- arXiv: Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals
参考文献