Term

Multi-Token Prediction

別名: MTP

Overview

従来の自己回帰型モデルが1ステップにつき1トークンを生成するのに対し、複数のトークンを並列的に予測することで、メモリ帯域幅のボトルネックを解消し、推論プロセスを高速化する技術。GoogleのGemma 4では、この手法を用いたドラフトモデルにより最大3倍の高速化を実現している。

Mentioned Articles

2 件

テクノロジー
Google、Gemma 4に12B Unifiedを追加：RAM 16GBのローカル環境で音声・画像エージェントを動かす布石

Googleは、中規模のオープンモデル「Gemma 4 12B Unified」を公開した。単一のデコーダーのみで音声・画像・テキストを直接処理する設計が特徴であり、16GB程度のメモリを持つPCで高度なマルチモーダルエージェントを構築できる。

2026年6月4日
テクノロジー
Google、Gemma 4向けに推論速度を最大3倍向上させるMTP(Multi-Token Prediction)ドラフトモデルを公開

Googleは、Gemma 4の推論を最大3倍高速化するMulti-Token Prediction対応ドラフトモデルを公開した。このモデルは、投機的デコード技術によりトークン生成と検証を分離し、VRAM帯域幅のボトルネックを解消することで、エッジデバイスやローカルPCでの推論品質を低下させることなく大幅に改善する。

2026年5月6日

External Mentions

7 件

arXiv SurroundNEXO: Ego-Centric Metric Bridging for Spatially Consistent Geometry in Autonomous Driving
▲ 0 Shuai Yuan 2026年6月15日
arXiv Speaking the Language of Science: Toward a General-Purpose Generative Foundation Model for the Natural Sciences
▲ 0 Mingyang Li 2026年6月15日
arXiv PIANO: Personalized Reranking via Information Aggregation Node for Music Search Optimization
▲ 0 Weisheng Li 2026年6月15日
arXiv Data Augmentations for Data-Constrained Language Model Pretraining
▲ 0 Michael K. Chen 2026年6月15日
arXiv A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization
▲ 0 Prasanth YSS 2026年6月15日
Hacker News Accelerating Gemma 4: faster inference with multi-token prediction drafters
▲ 687 amrrs 2026年5月5日
Hacker News Better and Faster Large Language Models via Multi-Token Prediction
▲ 302 jasondavies 2024年5月1日