マルチモーダル
別名: Multimodal
Overview
AIがテキストだけでなく、画像、音声、動画といった異なる種類の情報を同時に理解し、処理できる性質のこと。次世代AIモデルの重要な特徴の一つとされる。
Mentioned Articles
11 件-
テクノロジー -
テクノロジーApple、Siri刷新でGoogleと禁断の提携か。Gemini搭載で描くAI逆転劇の全貌
長年のライバル関係にあったAppleとGoogleが、AIの領域で歴史的な提携に動く可能性が浮上した。Appleが次世代の音声アシスタント「Siri」の抜本的な機能強化のため、Googleの生成AIモデル「Gemini」 […]
-
テクノロジーChatGPT、高度な音声モードが大幅アップデートし更に自然な表現に、リアルタイム翻訳機能も実装
最近のAIアシスタントの音声は、かなり自然な表現になってきているが、今回のChatGPTのアップデートでは更に改善が施されている。OpenAIは、ChatGPTの有料ユーザー向けに高度な音声モード(Advanced Vo […]
-
テクノロジーOpenAI、ChatGPTの画像生成機能を大幅刷新―GPT-4oによる高精度テキスト表現が実現
OpenAIはChatGPTの画像生成機能を大幅に刷新し、GPT-4oモデルに直接統合した新システムを発表した。テキストやロゴの正確な描画、会話を通じた画像の洗練、複雑な指示への対応など、従来のDALL-E 3を大きく上 […]
-
テクノロジーGoogle、最新AI「Gemini 2.5 Pro」発表 – 推論能力強化モデルがベンチマークで競合を凌駕
Googleは、同社が「最もインテリジェント」と位置づける最新AIモデル「Gemini 2.5 Pro」を発表した。このモデルは、応答前に内部で「思考」する能力を備え、複雑なタスクにおける推論やコーディング性能を大幅に向 […]
-
テクノロジーMistral AI、GPT-4o miniを凌駕する小型AIモデル「Small 3.1」を公開
フランスのAIスタートアップMistral AIが、わずか24B(240億)パラメータながらGoogle GemmaやOpenAIのGPT-4o miniを上回る性能を持つ新モデル「Mistral Small 3.1」を […]
-
テクノロジーMediaTek Dimensity 9400がGemini Nanoをサポート、搭載デバイスで高度なエッジAI利用が可能に
スマートフォン業界に革新的な進展がもたらされた。MediaTekは、次世代フラッグシップチップセットDimensity 9400が、GoogleのGemini Nanoをマルチモーダル機能とともにサポートすることを発表し […]
-
テクノロジーGoogle、学生や研究者に最適なAIツール「NotebookLM」をGemini 1.5 Proでパワーアップし日本でも展開開始
学生や研究者にとって強力なツールが日本でも利用可能になった。GoogleのAIを利用したリサーチツール「NotebookLM」がGemini 1.5 Proによりパワーアップを果たした上で、日本を含む200カ国で提供開始 […]
-
テクノロジーGoogle、速度を重視した「Gemini 1.5 Flash」、200万トークンをサポートする「Gemini 1.5 Pro」、オープンモデル「Gemma 2」を発表
生成AIは、出力の品質に重点が置かれて開発が進められていたが、最近はそれに加えて速度も改善が行われるようになって来ている。今回のGoogle I/Oの発表はそうした潮流を反映した物だった。 OpenAIが昨日発表した「G […]
-
テクノロジーOpenAIが数学の得意なAIを開発するのはなぜ重要なのか?
最近、OpenAIがSam Altman氏を解雇し、すぐに再雇用したことで、人工知能(AI)の開発と利用をめぐる議論が再び脚光を浴びている。さらに異例なのは、メディア報道で目立つテーマが、AIシステムの数学能力であること […]
-
テクノロジーChatGPTを超えるべく開発されているGoogleの次世代AI「Gemini」の更なる詳細が明らかに
Google DeepMindは、同社の有名なAIである「AlphaGo」の能力と、OpenAIのChatGPTを支える技術であるGPT-4のような大規模言語モデルを組み合わせた「Gemini」と呼ばれる画期的なAIシス […]