テクノロジー
Appleが新マルチモーダルAI「Manzano」を発表:画像理解と生成のジレンマを解決する「ハイブリッドトークナイザー」の能力とは
Appleの研究チームは、ビジョンと言語を統合し、画像理解(Visual Understanding)と画像生成(Image Generation)の両方を高い水準で兼ね備える新しいマルチモーダル大規模言語モデル(MLL […]
別名: マンザーノ
Appleの研究チームが発表したManzanoは、画像理解(I2T)と画像生成(T2I)の性能トレードオフを解消するために設計されたマルチモーダル大規模言語モデルです。最大の特徴は「ハイブリッドビジョントークナイザー」を採用している点で、単一の共有視覚エンコーダから理解用の連続トークンと生成用の離散トークンを同時に生成します。これにより、複雑な文書や図表を扱うテキストリッチな理解タスクで専門特化型モデルに匹敵する性能を発揮しつつ、高品質な画像生成も可能にしています。アーキテクチャは統一LLMデコーダと拡散画像デコーダ(DiT-Air)で構成され、最大30B(300億)パラメータまでスケーリングされています。