토픽 179 / 201·학습 패러다임과 특수 모델

MQA (Multi-Query Attention)

Key/Value 헤드를 모든 Query 헤드가 공유하여 KV 캐시 메모리를 대폭 절감하는 어텐션 메커니즘

특징

동작원리: Q는 헤드별 독립 프로젝션 → K, V는 단일 프로젝션 공유 → 각 Q 헤드가 동일 K, V로 Attention 계산

비교: MHA(h개 KV 헤드/기준 품질) vs MQA(1개 KV/최소 메모리/소폭 저하) vs GQA(g개 그룹/MHA 근접 품질)

적용사례: LLM 추론 가속(PaLM/Falcon), 대규모 배치 서빙(메모리 절감), 실시간 챗봇(저지연)

연관: GQA, Transformer, KV 캐시, LLM 추론 최적화