Term

マルチモーダルAI

Overview

テキスト、画像、音声、動画など、異なる種類のデータ(モダリティ)を統合的に処理・理解できるAIモデルを指します。従来のAIがテキストのみ、あるいは画像のみを扱う「シングルモーダル」であったのに対し、マルチモーダルAIは例えば「画像の内容を言葉で説明する」ことや「指示された内容に基づいて画像を生成する」ことが可能です。人間が五感を使って世界を理解するように、より複雑で現実的なコンテキストを理解できる次世代のAI技術として注目されています。

Mentioned Articles

5 件

External Mentions

2 件