動画生成AIモデルを開発しているRunwayが、AI動画生成技術における最大の課題とされてきた「キャラクターの一貫性」を解決したとする最新モデル「Gen-4」をリリースした。新モデルでは単一の参照画像からキャラクターやオブジェクトの一貫性を維持したまま、異なるシーンや角度で動画を生成できる。この技術革新により、AI動画制作はより実用的な映画製作ツールとなり、映像制作の未来を大きく変える可能性を秘めている。
一貫性という壁を突破したGen-4の革新性
AI動画生成技術の最大の課題は、これまでシーン間でのキャラクターやオブジェクトの一貫性を維持することだった。従来のAI動画生成モデルでは、ショットが変わるとキャラクターの顔つきが微妙に変化したり、背景のオブジェクトが不自然に変わったりすることが課題であった。これは、各フレームを独立して生成していたため、ショット間の連続性を保つのが困難だったからである。
Runwayによると、Gen-4はこの問題を解決することに主眼を置いて開発された。主な機能と特徴は以下の通りである。
- キャラクター・オブジェクトの一貫性: ユーザーは参照画像(リファレンスイメージ)を1枚提供するだけで、Gen-4はそのキャラクターやオブジェクトの外見を、異なる照明条件やシーン、アングルにわたって一貫して維持できる。これは、追加のファインチューニングやトレーニングなしで実現される。
- 環境の一貫性: キャラクターだけでなく、背景となる「世界環境」も一貫性を保つことができる。これにより、より没入感のある、連続した物語表現が可能になる。
- スタイルの一貫性: 参照画像とテキストによる指示(プロンプト)を組み合わせることで、特定のスタイル、主題、場所などを動画全体で一貫させることが可能である。
- 物理法則のシミュレーション: Runwayは、Gen-4が「現実世界の物理法則をシミュレートする能力において重要なマイルストーン」であると主張している。これにより、よりリアルな動きや相互作用を持つ動画生成が期待される。
- 高品質な動画生成: プロンプトへの忠実度が高く、現実的な動きを持つダイナミックな動画を生成できるとしている。当初は720p解像度で5秒または10秒のクリップ生成に対応するが、公開されたデモ映像には2分近いものもあり、将来的に長尺化する可能性を示唆している。
Gen-4は、視覚要素の「永続的なメモリ」とも言えるシステムを構築することでこの問題を解決した。キャラクターやオブジェクト、環境が一度確立されると、システムはその核となる属性を維持しながら、異なる角度からレンダリングできるようになった。これは単なる技術的改良ではなく、断片的な映像から一貫した物語を語ることができるようになる本質的な違いを生み出している。
技術的には、Gen-4は参照画像とテキスト指示を組み合わせて利用する。ユーザーは被写体の参照画像を提供し、生成したいショットの構図を説明すると、AIが一貫した出力を異なる角度から生成する。「照明条件、場所、処理全体で一貫したキャラクターを生成できる」とRunway社は説明している。
重要なのは、この機能がファインチューニングや追加トレーニングを必要としない点だ。単一の参照画像だけで、一貫したキャラクターを様々な環境に配置できる。
技術的な仕組みと背景
多くのビデオ生成モデルは画像を生成するためのニューラルネットワークに基づいており、ビデオはイメージのシーケンスとして一度に1枚ずつ生成される。このプロセスは通常「拡散(Diffusion)」と呼ばれ、ノイズを含む画像から始まり、複数のステップで徐々に詳細が追加される。
従来のビデオジェネレーターとの最大の違いは、クリップのすべてのフレームで視覚的な一貫性を確保する必要がある点だ。この課題を解決するためにGen-4は、コアの拡散最適化ニューラルネットワークを拡張し、キャラクターやオブジェクトの一貫性を維持する仕組みを組み込んでいる。
初期段階では、ユーザーは720pの解像度で5秒と10秒のクリップを生成できるが、デモビデオには2分近い長さのものもあり、将来的により長いクリップの生成が可能になる可能性を示唆している。
デモと実例で示された能力
Runway社はGen-4の能力を示すために複数の短編映画をリリースした。「New York is a Zoo」では、リアルな動物を映画的なニューヨークの設定に配置し、キャラクターの一貫性を実証している。この作品では、動物の参照画像と都市の写真を組み合わせ、異なるニューヨークのシーンに同じ動物を配置している。
「The Herd」では、夜の牛の群れを通り抜けるチェイスシーンが描かれており、わずか数枚の参照画像を使用するだけで一貫したキャラクターの外観を維持している。また、「The Retrieval」は、探検家たちが神秘的な花を探す様子を描いたもので、Gen-4を使用して1週間未満で制作された。
加えて、Gen-4は画像編集ツールとしても機能する。ユーザーは例えば2つのイラストをアップロードし、アルゴリズムにそれらを新しい図面に組み合わせるよう依頼できる。Gen-4は、修正の必要性を減らすために、各出力画像の複数のバリエーションを生成する。
Runwayの戦略とポジショニング
Runwayは2018年にニューヨーク大学のティッシュ芸術学校の芸術学生によって設立された。創業者はチリ出身のCristóbal Valenzuela氏とAlejandro Matamala氏、そしてギリシャ出身のAnastasis Germanidis氏だ。2023年2月に最初のAIビデオジェネレーター「Gen-1」をリリースし、その後「Gen-2」「Gen-3」と進化を続けてきた。
注目すべきは、Runwayが他のAI企業と異なるアプローチを取っている点だ。多くの競合他社が汎用のビデオ作成ツールをリリースする中、RunwayはAdobeのような位置づけを目指し、デザイナーや映画製作者などのクリエイティブ専門家向けにマーケティングを行っている。既存のクリエイティブワークフローにサポートツールとして統合できる機能の開発に焦点を当てているのだ。
この戦略により、Runwayは映画製作会社Lionsgateとの契約を獲得することに成功した。この提携により、LionsgateはRunwayが同社の映画ライブラリにモデルをトレーニングすることを合法的に許可し、RunwayはLionsgate向けに制作やポストプロダクションで使用するカスタムツールを提供している。
Runwayは「Hundred Film Fund」も設立しており、AIを使用した映画制作に最大100万ドルを提供している。「私たちは、最高の物語はまだ語られていないと信じていますが、従来の資金調達メカニズムは、より大きな業界エコシステム内の新興のビジョンを見落としがちです」とRunwayは同ファンドのWebサイトで説明している。
業界への影響と課題
Gen-4のような技術の登場は、映画業界やクリエイティブ産業に大きな影響を与える可能性がある。Animation Guildが委託した2024年の調査[PDF]によれば、AIを採用した映画制作会社の75%が、この技術を組み込んだ後に仕事を削減、統合、または排除している。同調査はまた、2026年までに10万人以上の米国エンターテイメント産業の仕事が生成AIによって影響を受けると予測している。
他のAI企業と同様に、Runwayもトレーニングデータに関する法的精査に直面している。同社は現在、著作権で保護された作品を許可なくAIモデルのトレーニングに使用したとアーティストから提起された訴訟に対応中だ。Runwayはフェアユース(公正使用)の原則を防御として引用しているが、裁判所はまだ著作権法のこの適用について決定的な判断を下していない。
Runwayはまた、トレーニングデータの出所について競争上の理由から詳細を提供することを拒否している。この不透明性はAI開発者の間で標準的な慣行となっているが、クリエイターにとっては懸念事項である。404 Mediaは、少なくともトレーニングデータの一部には、人気インフルエンサーや映画スタジオのYouTubeチャンネルからスクレイプされたビデオが含まれていたと報じている。
企業としてのRunwayの動向
現時点で、RunwayはAI動画技術の主要プレイヤーとして確立されており、企業価値は約40億ドルと評価されている。2024年12月には年間収益8000万ドルを報告し、2025年には年間収益3億ドルを予測している。これはOpenAIのSoraに対する最強の競合相手と位置づけられている。こうした中、Runwayは現在、新たな資金調達ラウンドを進めているとようだ。既にRunwayはNVIDIA、Google、Salesforceなどから2億3000万ドル以上の資金提供を受けている。
Gen-4は現在、すべての有料サブスクライバーとエンタープライズ顧客に提供されている。個人向けプランは月額15ドルから始まり、月額95ドルまでスケールアップする。年間プランにサインアップすると20%の割引がある。エンタープライズアカウントは年間1,500ドルだ。
Source
- Runway: Introducing Runway Gen-4