テクノロジー
Google、Gemma 4向けに推論速度を最大3倍向上させるMTP(Multi-Token Prediction)ドラフトモデルを公開
Googleは、Gemma 4の推論を最大3倍高速化するMulti-Token Prediction対応ドラフトモデルを公開した。このモデルは、投機的デコード技術によりトークン生成と検証を分離し、VRAM帯域幅のボトルネックを解消することで、エッジデバイスやローカルPCでの推論品質を低下させることなく大幅に改善する。
別名: Speculative Decoding
推論プロセスを「生成」と「検証」に分離する手法。まず軽量で高速なドラフトモデルが複数のトークン候補を生成し、その後に巨大なターゲットモデルがそれらを一括で検証する。予測が正しい場合は大幅な高速化につながり、誤っていた場合でもターゲットモデルが修正を行うため、出力品質を損なうことなく処理効率を高めることができる。