Term

Grouped-Query Attention

別名: GQA

Overview

Grouped-Query Attention（GQA）は、大規模言語モデルの推論速度を向上させ、メモリ使用量を削減するために開発されたアテンション機構の一種です。従来のMulti-Head Attention（MHA）とMulti-Query Attention（MQA）の中間に位置する手法で、クエリのヘッドをグループ化し、各グループでキーと値のヘッドを共有します。これにより、高い精度を維持しながら、特に長いコンテキストを扱う際の計算コストを大幅に抑えることができます。

Mentioned Articles

2 件

テクノロジー
OpenAI、個人情報を端末内で消すPrivacy FilterをApache 2.0で公開

OpenAIは、テキスト中の個人識別情報（PII）をローカルで検出・マスクする「OpenAI Privacy Filter」を公開した。Apache 2.0ライセンスで提供され、クラウドに送る前のデータ処理に活用できるが、匿名化ツールや法令順守の証明にはならないため、高リスク用途での利用には注意が必要だ。

2026年4月24日 7 分で読める
テクノロジー
MetaのAI「CWM」はコードの未来を変えるか？「実行」を理解する世界モデルの衝撃

Metaが、AIによるコード生成の常識を大きく変える可能性を持った新しい研究モデル「Code World Model（CWM）」を発表した。これは単に既存のコードを学習し、次に来るテキストを予測する従来のモデルとは一線を […]

2025年9月26日 13 分で読める

Grouped-Query Attention

Overview

Mentioned Articles

OpenAI、個人情報を端末内で消すPrivacy FilterをApache 2.0で公開

MetaのAI「CWM」はコードの未来を変えるか？「実行」を理解する世界モデルの衝撃