Microsoft、画像からリアルなアバターをリアルタイムで生成するAIビデオツール「VASA-1」を発表

2024年4月19日

当記事のリンクにはアフィリエイト広告が含まれています。

これまでもディープフェイクの一例として、名画のデータと、フェイストラッキング等を組み合わせて、例えばモナリザを動かすような技術は存在したが、今回Microsoftの研究者らが発表した「VASA-1」と呼ばれるフレームワークは、これを更に進めた物で、1枚の写真と音声ファイルのみから「自然な口の動き、表情、頭の動き」をリアルタイムに生成し、音声駆動型の話し相手を自動で生成出来る物だ。

モデルは、大量の顔ビデオデータで学習される。学習後、エンコーダーが入力画像を処理し、アイデンティティ、3D外観、顔のダイナミクスなど様々な側面をキャプチャする。次に拡散モデルが顔と頭の動きを生成する。デコーダはこれらの動きを最終的に話す顔を表すビデオフレームに変換する。

実際にサンプルをご覧頂ければお分かりのように、その総合的な能力は目を見張る物で、自然な表情、幅広い感情、リップシンクを、映像をほとんど破綻させることなくエミュレートできるのだ。

New VASA-1 model by Microsoft Research Asia. Impressive lip-sync and natural face expression.

There are still visible artifacts, however, to the point where many regular ppl with little awareness about the state of AI technology could no longer tell if it is fake… pic.twitter.com/Qxi8qdHNXd
— Martin Hodás (@Hody_MH11) April 18, 2024

とはいえ、全く問題がないわけではない。研究者らは、他のモデルと同様、このモデルも髪の毛のような非剛体要素でまだ苦労していることを認めている。しかし、この分野でも、このモデルは平均以上の性能を発揮し、真正でないディープフェイクビデオを識別する際の既知のレッドフラッグの1つを回避することも出来ているという。

2つのデータセットを用いた実験では、VASA-1は、唇と頭の動きの音声同期と映像品質の点で従来の方法を大きく上回った。この方法は、NVIDIA RTX 4090 GPU上で、わずか170ミリ秒の待ち時間で、リアルタイムで最大40fpsの512×512ピクセルのビデオを生成する。

新モデルに基づくツールは非常に使いやすく、”条件としてのオプション信号”を制御する機能さえ提供する。つまり、ユーザーは主な視線方向、頭部距離、感情オフセットを設定できるのだ。

One of the pros of VASA-1 is the easy of use. Watch this real-time demonstration: pic.twitter.com/QvHnpHVx8e
— Martin Hodás (@Hody_MH11) April 18, 2024

VASA-1は、美術品などの非現実的な入力にも対応する。つまり、絵画にも命を吹き込むことができるのだ。

その一例として、Microsoftはモナリザがラップをするという愉快なクリップを紹介している。

Rapping Mona Lisa. Not sure I wanted to see this… pic.twitter.com/1B8sgm5qQ9
— Martin Hodás (@Hody_MH11) April 18, 2024

Microsoftの研究者らは、VASA-1を、現実の人間のように自然で直感的に人と対話できる、本物そっくりのデジタルAIアバターを作るための重要な一歩だと考えている。デジタルコミュニケーションやアクセシビリティの向上から、対話型のAI家庭教師や治療サポートまで、幅広い応用が期待されている。

積極的な応用の可能性がある一方で、研究者たちは、実在の人物を使って誤解を招くようなコンテンツを作成するなど、この技術が“ディープフェイク”として悪用される可能性についても警告している。そのため、MicrosoftはVASA-1をリリースしないが、上半身、より表現力豊かな3D顔モデル、髪や服などの非剛体要素、より表現力豊かな話し方や感情を含む手法に拡張する予定である。

その他の例はVASA-1プロジェクトのページで見ることが可能だ。

Source