MENU

ゼノ・スペクトラム（ゼノスペ）では、最新テクノロジーとそれに関連する科学の話題を毎日配信中です！

Google DeepMind、動画からサウンドトラックやセリフを生成するV2A技術を披露

2024年6月19日

当記事のリンクにはアフィリエイト広告が含まれています。

テキストプロンプトから音楽を生成するツールはこれまでにもいくつか登場しているが、Google DeepMindが披露した「Video-to-Audio (V2A)」技術は、それに加えて、マルチモーダルAIモデルが動画の内容を読み取り、サウンドトラックやセリフ、効果音までをも生成することが可能だという。

目次

ビデオ生成モデルの出力に命を吹き込む

Google DeepmindのV2A技術は、ビデオのピクセルと自然言語の指示を組み合わせて、無声ビデオに対して詳細なオーディオトラックを生成するものだ。Google DeepMindによれば、ユーザーはこのツールを使って、“ドラマのスコア、リアルな効果音、または動画のキャラクターやトーンにマッチしたセリフ”を含むシーンを作成することができると言う。

GoogleのVeoやOpenAIのSora、KLING、Gen 3など、ビデオ生成モデルは動画を生成することは出来たが、それは映像のみであり、音声は別途用意する必要があった。Googleは、今回のV2Aを、それらビデオ生成モデルと組み合わせて使用することで、劇的な音楽、リアルな音響効果、キャラクターやビデオの雰囲気に合わせたセリフを追加することができるとしている。生成した動画だけではなく、アーカイブ映像や無声映画のような伝統的な映像に音を追加するためにも使用できる。

また、AIに動画の解析を全て任せるだけでは結果が自分の望んだとおりに得られないこともあるだろう。そうした場合のために、テキストプロンプトによって望ましい音を再現したり、不要な音を削除したり、変更する様な指示を与えることも可能だ。

このDeepMindのV2AモデルはDiffusionベースで構築されており、チームによればビデオとオーディオを同期させるために最も現実的で説得力のある結果を提供するとされている。

V2Aシステムはまず、ビデオ入力を圧縮表現にエンコードする。その後、Diffusionモデルが視覚的入力とテキストプロンプトに導かれながら、ランダムなノイズから徐々にオーディオを精錬していく。最後に、オーディオ出力がデコードされ、オーディオ波形に変換され、ビデオデータと組み合わされる。

ビデオピクセルと音声プロンプト入力を受けて、基礎となるビデオに同期した音声波形を生成するV2Aシステムの構成図。まず、V2Aは映像と音声プロンプト入力をエンコードし、Diffusionモデルを通して繰り返し実行する。その後、圧縮された音声が生成され、音声波形にデコードされる。(Credit: Google)

オーディオ品質を向上させるために、DeepMindはトレーニングプロセスにAI生成の音の説明や話された対話の書き起こしを追加した。このようにして、V2Aは特定の視覚的なシーンに対するオーディオイベントを学習し、説明や書き起こしに含まれる情報に対応するようになった。

しかし、V2Aにはいくつかの制約もある。例えば、オーディオ出力の品質はビデオ入力の品質に依存する。モデルのトレーニング分布外のアーティファクトや歪みがビデオに含まれると、オーディオ品質が大幅に低下することがある。また、話し言葉を含むビデオのリップシンクはまだまだ不安定だ。

また、V2Aはまだ一般では利用できない。DeepMindは「クリエイティブコミュニティにプラスの影響を与えることができる」ことを確認するために、主要なクリエイターや映画制作者からフィードバックを収集している。広範なアクセスが考慮される前に、V2Aは厳格な安全評価とテストを受ける予定であると同社は述べている。

Sources

Google DeepMind: Generating audio for video

面白かったら是非シェアをお願いします！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

XenoSpectrum管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり、色々と情報を集めている。2児の父であり、健康や教育の話題も最近は収集中。

コメント

コメントするコメントをキャンセル