Adobeとメリーランド大学の研究者らは、NVIDIAのRTX VSR (RTX Video Super Resolution)のように、低解像度の動画から高解像度の動画を生成するビデオ超解像(Video Super Resolution: VSR)テクノロジーの新しいモデルである「VideoGigaGAN」を開発した。この新たな超解像テクノロジーは、従来の同等の技術がどこかぼやけた動画を出力するのに対し、くっきり、ハッキリとした高解像度の動画を出力してくれるという。
Adobeの以前の成果「GigaGAN」を動画に拡張
これまでのアップスケーリングテクノロジーが回帰ベースのネットワークを使用することが多かった事から、ぼやけた感じになっていたことが問題だった点に対し、VideoGigaGANは画像のアップスケーリングが得意なGigaGANをベースにすることでこの問題に対処しようとした。
しかしGenerative Adversarial Networks(GAN、敵対的生成ネットワーク)は静止画を高解像度にアップスケーリングするのには効果的だがビデオ超解像に使用すると、フレーム間のちらつきやエイリアシングなどの問題があることが分かった。これを解決するため、研究者らはGigaGANに新しいパーツを追加し、フレームをより一貫性のある高品質なものにした。
投稿者: @luokaiThreadsで見る
テストによると、VideoGigaGANは、従来の手法よりも画像の一貫性とディテールのバランスが良く、これまでの同等技術よりもはるかに多くのディテールを再現したビデオを生成してくれる。VideoGigaGANは、シーンによりマッチしたディテールを追加することで、ビデオの解像度を8倍向上させることができるという。
投稿者: @luokaiThreadsで見る
ただし欠点もある。このモデルは、フレーム間に広がるエラーや、低解像度の入力ではそもそも失われてしまうテキストのような小さなもののために、長いビデオは今のところ使えないなどの制限がある。
VideoGigaGANプロジェクトのWebサイトでは、多くのデモや他の手法との比較を見ることができる。これはあくまで研究用のプレビューであり、Adobeがこのモデルをいつ自社の製品に取り入れるかは、この論文からはわからない。しかし、Adobeは最近、同社のビデオ・スイートに生成AIを追加すると発表したので、近い将来実現されるかも知れない。
論文
参考文献
研究の要旨
ビデオ超解像(VSR)アプローチは、アップサンプリングされたビデオにおいて印象的な時間的一貫性を示してきた。しかし、これらのアプローチは生成能力に限界があるため、画像よりもぼやけた結果を生成する傾向がある。このことは、時間的一貫性を保ちながら、生成的画像アップサンプラーの成功をVSRタスクに拡張できるかという基本的な問題を提起する。我々はVideoGigaGANを紹介する。VideoGigaGANは新しい生成的VSRモデルであり、高周波のディテールと時間的一貫性を持つビデオを生成することができる。VideoGigaGANは、大規模な画像アップサンプラーであるGigaGANをベースにしている。GigaGANに時間的モジュールを追加してビデオモデルに膨らませただけでは、深刻な時間的ちらつきが発生する。我々はいくつかの重要な問題を特定し、アップサンプリングされたビデオの時間的一貫性を大幅に改善する技術を提案する。我々の実験によれば、これまでのVSR手法とは異なり、VideoGigaGANは、よりきめ細かな外観の詳細を持つ、時間的に一貫性のある動画を生成する。VideoGigaGANの有効性を、公開データセット上で最新のVSRモデルと比較することで検証し、8倍超解像の動画結果を紹介する。
コメント