토픽 180 / 201·학습 패러다임과 특수 모델

GQA (Grouped-Query Attention)

Query 헤드를 그룹으로 나누어 그룹별로 Key/Value를 공유하는 MHA와 MQA의 절충 어텐션 방식

특징

동작원리: h개 Query 헤드를 g개 그룹으로 분할 → 그룹별 K, V 프로젝션 공유 → 그룹 내 각 Q 헤드가 동일 K, V로 Attention 수행

비교: MHA(g=h, 품질 최고/메모리↑) vs GQA(1

적용사례: LLaMA 2/3(기본 어텐션), Mistral(효율적 추론), Gemma(품질-속도 균형)

연관: MQA, MHA, Transformer, KV 캐시, LLM 추론 최적화