토픽 163 / 172·고급 학습 기법

GQA (Grouped-Query Attention)

GQA (Grouped-Query Attention)

Query 헤드를 그룹으로 나누어 그룹별로 Key/Value를 공유하는 MHA와 MQA의 절충 어텐션 방식

특징

•그룹별 KV 공유: Query 헤드를 g개 그룹으로 나누어 그룹 내 K, V 공유
•품질 유지: MQA 대비 표현력 보존, MHA에 근접한 성능
•메모리 절감: MHA 대비 KV 캐시 g/h로 축소 (g: 그룹 수, h: 총 헤드 수)
•주요 LLM 채택: Llama 2/3, Mistral, Gemma 등

동작원리: h개 Query 헤드를 g개 그룹으로 분할 → 그룹별 K, V 프로젝션 공유 → 그룹 내 각 Q 헤드가 동일 K, V로 Attention 수행

비교

목록 ←MQA (Multi-Query Attention)다음: PagedAttention / vLLM→