テクノロジー
Google、Gemma 4向けに推論速度を最大3倍向上させるMTP(Multi-Token Prediction)ドラフトモデルを公開
Googleは、Gemma 4の推論を最大3倍高速化するMulti-Token Prediction対応ドラフトモデルを公開した。このモデルは、投機的デコード技術によりトークン生成と検証を分離し、VRAM帯域幅のボトルネックを解消することで、エッジデバイスやローカルPCでの推論品質を低下させることなく大幅に改善する。
別名: MTP
従来の自己回帰型モデルが1ステップにつき1トークンを生成するのに対し、複数のトークンを並列的に予測することで、メモリ帯域幅のボトルネックを解消し、推論プロセスを高速化する技術。GoogleのGemma 4では、この手法を用いたドラフトモデルにより最大3倍の高速化を実現している。