Term

ハイブリッドビジョントークナイザー

別名: Hybrid Vision Tokenizer

Overview

ハイブリッドビジョントークナイザーは、マルチモーダルAIにおいて画像理解と画像生成の性能を両立させるための革新的なコンポーネントです。共有されたVision Transformer(ViT)を基盤とし、理解タスク向けには詳細な情報を保持する「連続アダプタ」を、生成タスク向けには量子化(FSQ)を用いた「離散アダプタ」を並行して使用します。これにより、モデル内部で共通のセマンティック空間を維持しながら、各タスクに最適な視覚表現を提供し、従来のモデルで課題となっていたタスク間の競合や情報損失を最小限に抑えることができます。

Mentioned Articles

1 件