Term

KVキャッシュ

別名: Key-Value Cache, KV Cache, KVキャッシュ

Overview

KVキャッシュ(Key-Value Cache)は、大規模言語モデル(LLM)がテキストを生成する際、過去のトークンの計算結果(KeyとValue)をメモリ上に保持しておく仕組みである。これにより、新しいトークンを生成するたびに過去の文脈を再計算する必要がなくなり、推論速度が大幅に向上する。しかし、文脈(コンテキストウィンドウ)が長くなるほどKVキャッシュのデータ量は肥大化し、HBMの容量を圧迫するため、HBFのような大容量メモリでの管理が期待されている。

Mentioned Articles

7 件

External Mentions

7 件