OpenAIが先日発表した動画生成AI「Sora」は、その出力する動画のクオリティの高さから大きな話題を呼んだが、Google、Metaと言ったライバル企業からはまだ比肩しうるものが登場していなかった。だが、ここに来て思わぬ所からSoraに対抗しうる動画生成AIが登場した。中国企業のKuaishouがリリースした「KLING」がそれである。
Soraと同じ技術を用いて驚きの高画質動画を生成
KLINGは1080pの解像度、30fpsで最大2分間の動画を生成出来る。特徴的なのは、物理的に正確な複雑な動きのシーケンスをモデル化することも可能であることだ。
サンプル動画では、「窓から見えるさまざまな風景の列車の旅」というプロンプトを使って作られた2分間の列車の旅が示されている。
Chinese new DiT Video AI Generation model 【KLING】
— 青龍聖者 (@bdsqlsz) June 6, 2024
Open access!
Generate 120s Video with FPS30 1080P, Understand Physics Better, Model Complex Motion Accurately
prompt:
Traveling by train, viewing all sorts of landscapes through the window.https://t.co/hTwIEHRza2 pic.twitter.com/nBvnAsqd1O
他の長いビデオの例として、季節が変わる中で庭で自転車に乗る少年のビデオがある。もちろん、季節の変化に伴って風景も変わるが、自転車に乗る少年の一貫性は保たれている。同じ庭を円を描いて回るのはさらに印象的であろう。
prompt:Little boy riding his bike in the garden through the changing seasons of fall, winter, spring and summer. pic.twitter.com/53tFPfsQyT
— 青龍聖者 (@bdsqlsz) June 6, 2024
ファーストフード店でチーズバーガーを食べる少年のビデオも注目に値する。バーガーを頬張り、少しずつ口の中に吸い込まれている様子や、動画に一貫性を持たせるためにバーガーがきちんとかみ跡に合わせて変形していることが見て取れる。
A Chinese boy wearing glasses enjoys a delicious cheeseburger with his eyes closed in a fast food restaurant pic.twitter.com/sdgZBW6bFK
— 青龍聖者 (@bdsqlsz) June 6, 2024
玉ねぎを切るナイフや、ラーメンをすする男性のビデオも、物理的な相互作用によってビデオに変化が生じる例である。しかし、これらの例は数秒しか続かないため、この「物理シミュレーション」の一貫性がどれほどあるかは不明だ。
A Chinese man sits at a table and eats noodles with chopsticks pic.twitter.com/VnSKgwrtyx
— 青龍聖者 (@bdsqlsz) June 6, 2024
開発者によれば、KLINGは3D時空間アテンションシステムを使用して動きと物理的相互作用をより良くモデル化し、スケーラブルなフレームワークと最適化された推論によって長く高解像度のビデオを生成できるという。
A little man with blocks visiting an art gallery pic.twitter.com/3F7lbFt9IL
— 青龍聖者 (@bdsqlsz) June 6, 2024
また、独自開発の3D顔および人体再構成技術に基づいて、背景安定化およびリダイレクトモジュールと組み合わせることで 1 枚の全身写真で、「歌って踊る」動画を作成することも可能とのことだ。
So who is Kuaishou Technology, the Chinese company behind the #aivideo model #KLING that's making the rounds
— Ionut «John» Burchi (@burconsult) June 6, 2024
-Adjusted net profit Q1 2024 : 600 million $
-Monthly active users 2024 – 697 million
They definitely have the 🪙to train these models. This is another one viggle style. pic.twitter.com/vXnRHKS7Vg
Kuaishouは、OpenAIのSoraにも用いられた、「Diffusion Transfomer」を用いており、概念を組み合わせ、モデルが現実世界の物理特性を正しくシミュレートすることが出来ると述べている。猫が都市の喧噪の中を車で運転するような架空のシーンを作成することも可能だ。
A white cat driving in a car through a busy downtown street with tall buildings and pedestrians in the background pic.twitter.com/mwW9EPMvNO
— 青龍聖者 (@bdsqlsz) June 6, 2024
KLINGは現在、中国で公開デモとして利用可能である。Kuaishouは、ソーシャルメディアアプリで中国国内でよく知られている北京に拠点を置くテック企業である。KLINGを通じて、大規模な生成AIモデルの競争に参入している。
Source
- Kuaishou: Kling
コメント