Learning
토픽 180 / 201·학습 패러다임과 특수 모델

GQA (Grouped-Query Attention)

GQA (Grouped-Query Attention)

Query 헤드를 그룹으로 나누어 그룹별로 Key/Value를 공유하는 MHA와 MQA의 절충 어텐션 방식

특징

  • 그룹별 KV 공유: Query 헤드를 g개 그룹으로 나누어 그룹 내 K, V 공유
  • 품질 유지: MQA 대비 표현력 보존, MHA에 근접한 성능
  • 메모리 절감: MHA 대비 KV 캐시 g/h로 축소 (g: 그룹 수, h: 총 헤드 수)
  • 주요 LLM 채택: Llama 2/3, Mistral, Gemma 등

동작원리: h개 Query 헤드를 g개 그룹으로 분할 → 그룹별 K, V 프로젝션 공유 → 그룹 내 각 Q 헤드가 동일 K, V로 Attention 수행

비교: MHA(g=h, 품질 최고/메모리↑) vs GQA(1

적용사례: LLaMA 2/3(기본 어텐션), Mistral(효율적 추론), Gemma(품질-속도 균형)

연관: MQA, MHA, Transformer, KV 캐시, LLM 추론 최적화