Term

量子化

別名: Quantization

Overview

通常32ビットや16ビットの浮動小数点で表現されるモデルのパラメータを、8ビットや4ビットなどのより低いビット数に変換する技術。メモリ消費を大幅に抑えられるが、精度がわずかに低下するトレードオフがある。本記事では、投機的デコードがこの精度低下を伴わずに高速化できる点と比較されている。

Mentioned Articles

5 件