テクノロジー
Appleが新マルチモーダルAI「Manzano」を発表:画像理解と生成のジレンマを解決する「ハイブリッドトークナイザー」の能力とは
Appleの研究チームは、ビジョンと言語を統合し、画像理解(Visual Understanding)と画像生成(Image Generation)の両方を高い水準で兼ね備える新しいマルチモーダル大規模言語モデル(MLL […]
別名: Hybrid Vision Tokenizer
ハイブリッドビジョントークナイザーは、マルチモーダルAIにおいて画像理解と画像生成の性能を両立させるための革新的なコンポーネントです。共有されたVision Transformer(ViT)を基盤とし、理解タスク向けには詳細な情報を保持する「連続アダプタ」を、生成タスク向けには量子化(FSQ)を用いた「離散アダプタ」を並行して使用します。これにより、モデル内部で共通のセマンティック空間を維持しながら、各タスクに最適な視覚表現を提供し、従来のモデルで課題となっていたタスク間の競合や情報損失を最小限に抑えることができます。