Term

投機的デコード

別名: Speculative Decoding

Overview

推論プロセスを「生成」と「検証」に分離する手法。まず軽量で高速なドラフトモデルが複数のトークン候補を生成し、その後に巨大なターゲットモデルがそれらを一括で検証する。予測が正しい場合は大幅な高速化につながり、誤っていた場合でもターゲットモデルが修正を行うため、出力品質を損なうことなく処理効率を高めることができる。

Mentioned Articles

1 件

テクノロジー
Google、Gemma 4向けに推論速度を最大3倍向上させるMTP(Multi-Token Prediction)ドラフトモデルを公開

Googleは、Gemma 4の推論を最大3倍高速化するMulti-Token Prediction対応ドラフトモデルを公開した。このモデルは、投機的デコード技術によりトークン生成と検証を分離し、VRAM帯域幅のボトルネックを解消することで、エッジデバイスやローカルPCでの推論品質を低下させることなく大幅に改善する。

2026年5月6日

投機的デコード

Overview

Mentioned Articles

Google、Gemma 4向けに推論速度を最大3倍向上させるMTP(Multi-Token Prediction)ドラフトモデルを公開