2024年のGoogle I/OはAI一色だった。恐らく最も印象的だったProject Astraは既にご紹介したが、生成AIモデルでもいくつか新たな発表を行っている。Googleは新たに動画生成に特化したAIモデル「Veo」を発表し、画像生成AIモデルImagenを更新した「Imagen 3」を発表したが、どちらも現在のAI分野のトレンドを広く網羅しようとする同社の動きを反映した物だ。
動画生成AIモデル「Veo」
2つのモデルの中でも印象的なのは、こちらの「Veo」だろう。Veoは、視覚的なセマンティクスと自然言語を理解する動画生成に特化しており、OpenAIの動画生成AIモデル「Sora」に対抗する物だ。このアプローチを動画生成に取り入れることで、特定のスタイルに合わせて創造的にカスタマイズされた結果を提供できる。
Googleは、Veoモデルがユーザーのプロンプト内の「シネマティック用語」を理解し、空撮やタイムラプス形式などのショットを生成できることを強調している。Veoは、1080pの解像度で1分以上のビデオを生成でき、OpenAIのSoraモデル(60秒まで)を超えた出力を実現したと主張している。
Veoは、Generative Query Network(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiereなど、これまでの生成ビデオモデルの成果を基に構築されており、アーキテクチャ、スケーリング法則、その他の新しい技術を組み合わせて品質と出力解像度を向上させている。
Googleは、Veoが何年にもわたる生成モデルから学び、ビデオの内容を理解し、リアルな物理現象をシミュレートしてより現実的な結果を生み出すと強調している。Veoの可能性を示すために、GoogleはDonald Gloverと協力して新しいモデルを使用したプロジェクトを作成し、あらゆる種類のショットが実際の映像と見分けがつかないほどリアルに見えることを示している。
Googleは、クリエイターや映画製作者にVeoを試してもらい、このモデルを幅広い芸術スタイルや用途に対応できるようにすることを呼びかけている。このツールは現在、VideoFXのプライベートプレビューで選ばれたクリエイターに提供されている。
Imagen 3
Imagenモデルも大幅なアップデートが行われた。Imagen 3は、Googleの「最高品質」のテキストから画像への変換モデルとして位置づけられており、GeminiやBardで見られるImagen 2モデルに比べていくつかの改善がなされている。
Imagen 3は、生成された画像の視覚的なアーティファクトや不純物を減らし、より高いレベルのディテールを持つ画像を提供するとされている。リクエストに応じて、よりフォトリアリスティックで生き生きとした画像が生成される。また、より長いプロンプトを解釈し、プロンプトに記載された細かい詳細をも取り入れて生成する能力が向上している。前景や背景の要素を詳細に説明しても、Imagen 3はすべての条件を満たす出力を生成できる。さらに、高度な機能により、より幅広いスタイルで画像を生成することができる。
だが、おそらく最大の改善点は、Imagen 3がテキストをレンダリングする能力である。これは、DALL-EやAdobe Fireflyなどのテキストから画像への変換モデルの弱点として知られている。Googleは、新しいモデルを、グリーティングカードやメッセージ付きの写真など、テキストを含むパーソナライズされた画像を作成する手段として位置づけている。実際にテキストをどれほど上手にレンダリングするかは今後の評価が待たれるが、有望な改善だ。
VeoとImagen 3の両方は、Google LabsのVideoFXでプライベートプレビューとして利用可能であり、SynthIDを使用して生成されたコンテンツがデジタル透かしで保護され、責任を持って生成されるようにする。
新しいモデルを試したいユーザーは、Googleの待機リストに登録することができる。
Source
コメント