Term

投機的デコード

別名: Speculative Decoding

Overview

推論プロセスを「生成」と「検証」に分離する手法。まず軽量で高速なドラフトモデルが複数のトークン候補を生成し、その後に巨大なターゲットモデルがそれらを一括で検証する。予測が正しい場合は大幅な高速化につながり、誤っていた場合でもターゲットモデルが修正を行うため、出力品質を損なうことなく処理効率を高めることができる。

Mentioned Articles

1 件