Term

Grouped-Query Attention

別名: GQA

Overview

Grouped-Query Attention(GQA)は、大規模言語モデルの推論速度を向上させ、メモリ使用量を削減するために開発されたアテンション機構の一種です。従来のMulti-Head Attention(MHA)とMulti-Query Attention(MQA)の中間に位置する手法で、クエリのヘッドをグループ化し、各グループでキーと値のヘッドを共有します。これにより、高い精度を維持しながら、特に長いコンテキストを扱う際の計算コストを大幅に抑えることができます。

Mentioned Articles

2 件