Tech Product

Manzano

別名: マンザーノ

Overview

Appleの研究チームが発表したManzanoは、画像理解(I2T)と画像生成(T2I)の性能トレードオフを解消するために設計されたマルチモーダル大規模言語モデルです。最大の特徴は「ハイブリッドビジョントークナイザー」を採用している点で、単一の共有視覚エンコーダから理解用の連続トークンと生成用の離散トークンを同時に生成します。これにより、複雑な文書や図表を扱うテキストリッチな理解タスクで専門特化型モデルに匹敵する性能を発揮しつつ、高品質な画像生成も可能にしています。アーキテクチャは統一LLMデコーダと拡散画像デコーダ(DiT-Air)で構成され、最大30B(300億)パラメータまでスケーリングされています。

Mentioned Articles

1 件

External Mentions

10 件