テクノロジー
Google、Gemma 4に12B Unifiedを追加:RAM 16GBのローカル環境で音声・画像エージェントを動かす布石
Googleは、中規模のオープンモデル「Gemma 4 12B Unified」を公開した。単一のデコーダーのみで音声・画像・テキストを直接処理する設計が特徴であり、16GB程度のメモリを持つPCで高度なマルチモーダルエージェントを構築できる。
別名: MTP
従来の自己回帰型モデルが1ステップにつき1トークンを生成するのに対し、複数のトークンを並列的に予測することで、メモリ帯域幅のボトルネックを解消し、推論プロセスを高速化する技術。GoogleのGemma 4では、この手法を用いたドラフトモデルにより最大3倍の高速化を実現している。
Googleは、中規模のオープンモデル「Gemma 4 12B Unified」を公開した。単一のデコーダーのみで音声・画像・テキストを直接処理する設計が特徴であり、16GB程度のメモリを持つPCで高度なマルチモーダルエージェントを構築できる。
Googleは、Gemma 4の推論を最大3倍高速化するMulti-Token Prediction対応ドラフトモデルを公開した。このモデルは、投機的デコード技術によりトークン生成と検証を分離し、VRAM帯域幅のボトルネックを解消することで、エッジデバイスやローカルPCでの推論品質を低下させることなく大幅に改善する。