토픽 163 / 172·고급 학습 기법
GQA (Grouped-Query Attention)
GQA (Grouped-Query Attention)
Query 헤드를 그룹으로 나누어 그룹별로 Key/Value를 공유하는 MHA와 MQA의 절충 어텐션 방식
특징
- •그룹별 KV 공유: Query 헤드를 g개 그룹으로 나누어 그룹 내 K, V 공유
- •품질 유지: MQA 대비 표현력 보존, MHA에 근접한 성능
- •메모리 절감: MHA 대비 KV 캐시 g/h로 축소 (g: 그룹 수, h: 총 헤드 수)
- •주요 LLM 채택: Llama 2/3, Mistral, Gemma 등
동작원리: h개 Query 헤드를 g개 그룹으로 분할 → 그룹별 K, V 프로젝션 공유 → 그룹 내 각 Q 헤드가 동일 K, V로 Attention 수행
비교