Learning
토픽 162 / 172·고급 학습 기법

MQA (Multi-Query Attention)

MQA (Multi-Query Attention)

Key/Value 헤드를 모든 Query 헤드가 공유하여 KV 캐시 메모리를 대폭 절감하는 어텐션 메커니즘

특징

  • KV 헤드 1개 공유: 모든 Query 헤드가 동일한 K, V 사용
  • 메모리 절감: MHA 대비 KV 캐시 1/n_heads로 축소
  • 추론 속도 향상: 메모리 대역폭 병목 완화, 디코딩 처리량 증가
  • 품질 트레이드오프: 표현력 감소로 일부 태스크에서 소폭 성능 저하

동작원리: Q는 헤드별 독립 프로젝션 → K, V는 단일 프로젝션 공유 → 각 Q 헤드가 동일 K, V로 Attention 계산

비교