テクノロジー
Tech Product
Gemini Omni
Overview
Gemini Omniは、Googleがany-to-anyと定義するネイティブなマルチモーダル基盤モデルです。テキスト、画像、音声、動画を統合的に処理し、単一のニューラルネットワークで一度に生成を行うことができます。従来の段階的なパイプライン処理とは異なり、データの劣化を抑えつつ、各モダリティ間の整合性が高い高品質なコンテンツを生成します。特に対話形式での動画編集や、物理法則を理解した自然な映像表現に強みを持ち、YouTube ShortsやGoogle Flowなどのサービスを通じて提供されます。
Mentioned Articles
3 件-
-
テクノロジーGoogle、AIでアバターを刷新!「Androidify」発表、GeminiとComposeで誰でも簡単オリジナルキャラ作成へ
かつて多くのAndroidユーザーに愛されたアバター作成ツール「Androidify」。そのAndroidifyが、Googleの最新AI技術を身にまとい、全面的にリニューアルされることが明らかになった。Googleは、 […]
-
テクノロジーGoogle、「Firebase AI Logic」を発表:アプリ開発におけるAI統合の簡素化を加速
Google I/O 2025で、アプリ開発プラットフォームFirebaseに新機能「Firebase AI Logic」の導入が発表された。これは、開発者がAI機能をアプリに組み込む際の障壁を低減し、AI時代における新 […]
External Mentions
6 件- arXiv MMAE: A Massive Multitask Audio Editing Benchmark
- arXiv PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects
- arXiv MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation
- Hacker News Gemini Omni
- arXiv From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents
- arXiv Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search