Term

Multi-Token Prediction

別名: MTP

Overview

従来の自己回帰型モデルが1ステップにつき1トークンを生成するのに対し、複数のトークンを並列的に予測することで、メモリ帯域幅のボトルネックを解消し、推論プロセスを高速化する技術。GoogleのGemma 4では、この手法を用いたドラフトモデルにより最大3倍の高速化を実現している。

Mentioned Articles

2 件

External Mentions

7 件