토픽 179 / 201·학습 패러다임과 특수 모델
MQA (Multi-Query Attention)
MQA (Multi-Query Attention)
Key/Value 헤드를 모든 Query 헤드가 공유하여 KV 캐시 메모리를 대폭 절감하는 어텐션 메커니즘
특징
- •KV 헤드 1개 공유: 모든 Query 헤드가 동일한 K, V 사용
- •메모리 절감: MHA 대비 KV 캐시 1/n_heads로 축소
- •추론 속도 향상: 메모리 대역폭 병목 완화, 디코딩 처리량 증가
- •품질 트레이드오프: 표현력 감소로 일부 태스크에서 소폭 성능 저하
동작원리: Q는 헤드별 독립 프로젝션 → K, V는 단일 프로젝션 공유 → 각 Q 헤드가 동일 K, V로 Attention 계산
비교: MHA(h개 KV 헤드/기준 품질) vs MQA(1개 KV/최소 메모리/소폭 저하) vs GQA(g개 그룹/MHA 근접 품질)
적용사례: LLM 추론 가속(PaLM/Falcon), 대규모 배치 서빙(메모리 절감), 실시간 챗봇(저지연)
연관: GQA, Transformer, KV 캐시, LLM 추론 최적화