Appleが新マルチモーダルAI「Manzano」を発表：画像理解と生成のジレンマを解決する「ハイブリッドトークナイザー」の能力とは

Appleの研究チームは、ビジョンと言語を統合し、画像理解（Visual Understanding）と画像生成（Image Generation）の両方を高い水準で兼ね備える新しいマルチモーダル大規模言語モデル（MLLM）「Manzano（マンザーノ）」を発表した。このモデルの存在は、高性能なマルチモーダルAIの実現における最大の技術的障壁、すなわち「理解能力と生成能力の性能トレードオフ」を解消する画期的なアプローチを提示している。

Manzanoの核心にあるのは、単一の共有視覚エンコーダから、理解のための「連続トークン」と生成のための「離散トークン」という二種類の視覚表現を同時に生成する「ハイブリッドビジョントークナイザー」だ。このシンプルかつスケーラブルな設計と、綿密に構築された三段階の訓練レシピにより、Manzanoは統合型モデルのSOTA（State-of-the-Art）性能を達成し、特に複雑な文書や図表を扱うテキストリッチな理解タスクにおいて、専門特化型モデルにも匹敵する、あるいは凌駕する結果を示している。

Manzanoの登場：理解と生成の「二律背反」への挑戦

近年、GPT-4oやGemini 2.5 Proといった商用システムが、単一モデルで画像の内容を理解し、その文脈に基づいて画像を生成する能力を統合し、目覚ましい進歩を遂げている。しかし、オープンソースコミュニティにおける統一型マルチモーダル大規模言語モデル（MLLM）の多くは、依然としてこの「理解と生成のトレードオフ」に直面してきた。

画像理解に特化したモデル（例：LLaVA, InternVLなど）は高い性能を示すが、画像生成能力を持たない。一方、統一モデルは、生成能力を追加することで、特に文書読解や知識推論といったテキストリッチなベンチマークにおいて、理解能力が専用モデルに大きく劣る傾向があった。

Appleの研究チームが指摘するこの性能ギャップの核心は、視覚情報のトークン化の性質が、タスクによって相反する点にある。

自己回帰型生成（T2I）：一般的に、言語モデルと同じように逐次的に次の要素を予測するため、離散的な（Discrete）画像トークンが好まれる。これは、画像を限られたコードブックのインデックスに分割する手法である。
理解・分析（I2T）：詳細な視覚情報やセマンティックな豊かさを捉えるためには、連続的な（Continuous）埋め込み表現の方が優れていることが経験的に示されている。

従来のモデルは、理解と生成のために二つの異なるトークナイザーを採用する「デュアルトークナイザー戦略」を採るか、あるいは両方とも離散トークンに統一しようとしてきた。前者はLLM内部で異なる種類のトークンを処理する必要がありタスク競合を引き起こし、後者は量子化による情報損失で理解性能が大きく低下するという欠点があった。

Manzanoは、この根本的な競合を、アーキテクチャレベルで解決することを提案する。

ハイブリッドトークナイザーの技術的詳細：統一されたセマンティクス空間の構築

Manzanoの革新性は、その核となるハイブリッドビジョントークナイザーにある。これは、単一の共有されたビジョンエンコーダ（Vision Transformer: ViT）を基盤としつつ、タスクに応じて最適化された二つの軽量なアダプタを並行して使用する。

1. 共通エンコーダと二つのアダプタ

ハイブリッドビジョントークナイザーは以下の三つの要素で構成される。

共有ビジョンエンコーダ（ViT）: CLIPなどで事前に訓練された標準的なViTをバックボーンとする。これが入力画像から基本的な視覚的特徴を抽出する。
連続アダプタ（Continuous Adapter）: 主にI2T（画像理解）タスクのために設計されている。エンコーダからの特徴を、空間チャネル変換（STC）レイヤーで圧縮した後、MLP（多層パーセプトロン）を用いてLLMのフィーチャ空間に投影し、連続的な埋め込みを生成する。この連続表現が、より微細な空間的詳細やテキストリッチな情報を正確に捉えることを可能にする。
離散アダプタ（Discrete Adapter）: T2I（画像生成）タスクのために使用される。こちらもSTC圧縮ステップを経るが、さらにFSQ（Finite Scalar Quantization：有限スカラー量子化）を用いて特徴を量子化し、離散的なコードインデックス（トークンID）に変換する。Manzanoでは、シンプルさとスケーラビリティを考慮し、64Kのコードブックサイズが採用された。

2. 競合の最小化：共通セマンティック空間

この設計の決定的なポイントは、連続トークンと離散トークンが同じエンコーダバックボーンから派生していることだ。これにより、両者は「共通のセマンティック空間」を共有することになり、LLM内部でのタスク競合が大幅に軽減される。

従来のデュアルエンコーダ方式では、理解用のセマンティックエンコーダと生成用のVQ-VAEのような量子化トークナイザーは、それぞれ異なる目的で訓練されるため、LLMは本質的に「二重人格」のような状態に置かれる。Manzanoは、ソースを統一し、アダプタで分岐させることで、LLMデコーダがテキストと画像の両方に対して一貫した自己回帰（AR）の学習戦略を適用できるようにした。これは、LLMの学習パイプラインを簡素化し、スケーリング挙動を改善する上で極めて重要である。

統合されたアーキテクチャとトレーニングの妙技

Manzanoの全体アーキテクチャは、理解と生成を担う「統一LLMデコーダ」と、生成されたセマンティクスを高忠実度のピクセルに変換する「拡散画像デコーダ」という二つの主要なコンポーネントに明確に分離されている。この明確な分離（Decoupled Components）こそが、Manzanoのスケーラビリティと成功の鍵を握る。

統一LLMデコーダの役割

統一LLMデコーダは、標準的なテキストLLMデコーダ（事前学習済みLLMを活用）に基づき、テキストのみ、I2T、T2Iのデータを混合した単一の自己回帰（AR）目的関数で訓練される。

理解時（I2T）: ハイブリッドトークナイザーの連続アダプタから抽出された連続特徴が、テキスト特徴とともにLLMに供給され、標準的なネクストトークン予測損失（テキストターゲット）で訓練される。
生成時（T2I）: テキスト入力に対し、LLMはテキストと離散画像トークンのシーケンスを予測する。この画像トークンは、離散アダプタによって生成されたIDがLLMの拡張された埋め込みテーブルにマッピングされたものである。

LLMデコーダは、あくまで「高レベルのセマンティクス」（テキストおよび画像トークン）の予測に集中し、詳細なピクセルレベルのレンダリングは行わない。これにより、LLMは複雑な推論や指示追従に特化できる。

拡散画像デコーダ：高忠実度レンダリング

LLMデコーダが予測した離散画像トークンは、補助的な拡散画像デコーダに渡され、最終的なピクセル画像がレンダリングされる。このデコーダは、DiT-Airアーキテクチャを採用しており、DiT（Diffusion Transformer）の優れたスケーラビリティを活用している。

重要なのは、LLMデコーダが生成した視覚トークン埋め込みが、従来のテキストエンコーダ（例：CLIP）からの埋め込みとは異なり、拡散プロセスを条件付けるシグナルとして機能する点だ。Appleは、0.9B、1.75B、3.52Bの3種類のデコーダ構成を提供し、256×256から最大2048ピクセルまでの解像度をサポートする。

合理化された三段階トレーニングレシピ

Manzanoは、以下の三段階のトレーニングを通じて、理解と生成の能力を同時に学習する。

予備学習（Pre-training）: テキストのみ、I2T、T2Iの大規模コーパス（2.3Bの画像-テキストペア、1Bのテキスト-画像ペアなど）を使用。理解、生成、テキストの混合比率は40:40:20。
継続予備学習（Continued Pre-training）: 24Mの高品質な能力指向データ（チャート、多言語OCR、合成キャプションなど）を追加し、より高品質なI2T/TIデータに焦点を当てる。
教師ありファインチューニング（SFT）: キュレーションされた命令データ（理解、生成、テキストの混合比率は41:45:14）を使用し、指示追従能力を強化する。

筆者が元Google検索エンジン開発者として注目するのは、そのデータ戦略の厳密さとスケーリングの規模である。Manzanoは、最大で1.6兆トークンという巨大なデータセットで訓練される。また、テキスト損失と画像損失の重み比率を1:0.5に設定するなど、タスク間のバランスを慎重に調整している。この綿密なレシピとアーキテクチャのシンプルさこそが、タスク競合を最小限に抑える上で不可欠だったと考えられる。

ベンチマークで示された「性能の統一」

Manzanoの成功は、そのアーキテクチャの妥当性を定量的に裏付けている。Appleは、Manzanoが統一モデルの中でSOTA（State-of-the-Art）またはそれに匹敵する性能を達成し、特にテキストリッチな評価において専門モデルとも競争力があることを示した。

1. 最小限のタスク競合

アブレーション研究（3B LLMデコーダを使用）の結果は、ハイブリッドトークナイザー戦略が他のアプローチ（純粋な離散トークン、デュアルエンコーダ）よりもタスク競合が少ないことを明確に示している。

トークナイザー戦略	一般VQA	知識/推論	テキストリッチ	GenEval	WISE
Pure-Discrete	63.3	62.2	62.3	77	35
Dual-Encoder	63.8	63.6	72.0	65	17
Hybrid Tokenizer (Manzano)	64.9	66.5	73.3	77	35

特に、テキストリッチなタスクにおいて、純粋な離散トークンは情報損失のために性能が大幅に低下するのに対し、Manzanoのハイブリッドアプローチは最も優れた理解性能を発揮する。

さらに、Manzanoの統一モデルを、理解専用モデルや生成専用モデルと比較した「統一 vs. 単一タスク」研究では、3Bスケールにおいて性能ギャップが1.0ポイント未満と無視できるレベルであることが判明した。これは、統一モデルでありながら性能のトレードオフがほぼ存在しないことを示しており、ハイブリッドトークナイザー戦略の有効性を強力に裏付けている。

2. テキストリッチな理解タスクでの優位性

Manzanoの30Bモデルは、特にテキストや文書の理解を要求されるベンチマークで際立った成績を収めている。

ベンチマークカテゴリ	モデル（30B規模）	スコア	Manzano 30Bとの比較
知識・推論 (ScienceQA)	InternVL2.5-26B	86.4	Manzano 30B: 96.2 (トップ)
知識・推論 (MMMU)	InternVL2.5-26B	51.8	Manzano 30B: 57.8
テキストリッチ (DocVQA)	InternVL2.5-26B	94.0	Manzano 30B: 94.3
テキストリッチ (OCRBench)	InternVL2.5-26B	85.2	Manzano 30B: 86.3

Manzano 30Bは、ScienceQA、MMMU、MathVistaにおいて、他の統一モデルや専門モデルを上回り、トップクラスの性能を達成した。連続埋め込みを採用したことで、DocVQAやOCRBenchといったテキストリッチなタスクにおける「正確な知覚能力」の要求に効果的に応えていることが、この結果から読み取れる。

3. 画像生成のSOTA達成

画像生成ベンチマーク（GenEval、WISE）においても、Manzanoは統一MLLMの中でSOTAを達成している。

モデル	GenEval	WISE
Bagel-14B	0.82	0.52
X-Omni-7B	0.83	–
Manzano-3B	0.85	0.46
Manzano-30B	0.85	0.54

特に、WISE（World Knowledge-Informed Semantic Evaluation）は、単なるプロンプト追従だけでなく、世界知識に基づいたセマンティックな根拠の評価も行うベンチマークであり、ManzanoがLLMのスケーリングに伴い、この知識ベースの生成タスクで大幅な向上（3Bから30Bで+8ポイント）を達成している点は注目に値する。これは、LLMデコーダのスケーリングが、より複雑な指示追従や知識統合能力を向上させ、それが画像生成の質に反映されていることを示唆している。

Manzanoの真価：スケーリングと応用能力

Manzanoの設計は、LLMデコーダと画像デコーダが分離されているため、それぞれを独立してスケーリングできるという実用的な利点を持つ。

LLMデコーダのスケーリング効果

LLMデコーダのサイズを300Mから30Bへと拡大した結果、理解タスク（一般、知識、テキストリッチ）および生成タスク（GenEval、DPG、WISE）の全てのメトリクスで単調な性能向上（Monotonic Gains）が確認された。

3Bモデルは、300Mモデルと比較して、一般理解で+14.2ポイント、知識・推論で+18.8ポイント、テキストリッチで+10.9ポイントと、非常に大幅な改善を示している。この結果は、LLMデコーダのサイズが、高レベルのセマンティクスを捉え、理解と生成の両方に利益をもたらすというManzanoの設計思想を裏付けている。

画像デコーダのスケーリングと編集能力

画像デコーダのサイズを0.9Bから3.52Bにスケーリングすると、人間の評価において構造的完全性（Structural Integrity）が大幅に向上した（+9.9ポイント）。これは、デコーダを大きくすることで、ピクセルレベルのディテールと画像の品質が高まることを示している。

さらにManzanoは、参照画像をLLMデコーダと拡散デコーダの両方に条件付けすることで、強力な画像編集能力を自然にサポートする。命令に基づいた編集、スタイル転送、インペインティング、アウトペインティング、深度推定といった多様なタスクを、セマンティックな一貫性を保ちつつ、ピクセルレベルの制御で実現可能である。

AppleのAI戦略におけるManzanoの位置づけ

Manzanoは、Appleが技術的な制約を克服し、汎用性の高いマルチモーダルAIを開発しようとする強い意図を示す、重要な技術的マイルストーンだ。

1. 競争優位性の源泉

AppleがManzanoで成功した最大の要因は、視覚トークン化のジレンマを解決した「ハイブリッドビジョントークナイザー」にある。このアプローチは、デュアルエンコーダ方式が抱える複雑性や、純粋な離散トークン方式が抱える理解性能の低下というトレードオフを回避し、両方の長所を単一の統一LLMに持ち込むことを可能にした。

特に、テキストリッチなタスクにおける卓越した性能は、Appleが将来的に「Apple Intelligence」などの製品群で、デバイス上の文書分析、スクリーン認識、複雑な指示理解といったユースケースを重視していることの表れだろう。連続埋め込みの採用は、これらの細部にわたる知覚を必要とするタスクにおいて、競合の統一モデルに対して明確な優位性をもたらしている。

2. 今後の展望と課題

Manzanoのモジュラー設計（ハイブリッドトークナイザー、統一LLM、拡散デコーダ）は、各コンポーネントを独立して改良・スケーリングできる柔軟性を提供する。これは、今後のAI研究の進化に応じて、基盤LLMや画像デコーダの最新技術を容易に取り込めることを意味する。

しかし、Manzanoの研究はまだ初期段階にある。画像デコーダをスケーリングした際に、定量的ベンチマークは安定したものの、人間の評価で「審美的な品質」のわずかな低下が観察されている。これは、高忠実度レンダリングの過程で、セマンティクス以外の要素、すなわち視覚的な魅力を追求する点で、まだ改善の余地があることを示唆している。

結論として、Manzanoは、統一型マルチモーダルモデルが理解能力を犠牲にすることなく、強力な生成能力を獲得できることを実証した。これは、クリーンな目的関数、優れた視覚表現、そしてスケーラブルなアーキテクチャの組み合わせによって達成された。Appleのこの研究は、オープンソースコミュニティや競合他社に対し、マルチモーダル統合の新たな方向性を示すものであり、今後のApple製品への応用を強く期待させるものだ。

論文

arXiv: MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

参考文献

NeuroHive: Hybrid Image Tokenizer: Apple’s New Approach to Multimodal Models