토픽 178 / 201·학습 패러다임과 특수 모델

KV 캐시 최적화 (KV Cache Optimization)

KV 캐시 최적화 (KV Cache Optimization)

LLM 추론 시 Key-Value 캐시의 메모리 사용량과 접근 효율을 최적화하는 기술

특징

•메모리 병목 해소: 긴 시퀀스에서 KV 캐시가 GPU 메모리 지배
•긴 컨텍스트 지원: 128K+ 컨텍스트 윈도우 실현
•추론 지연시간 감소: 메모리 접근 최적화로 디코딩 속도 향상
•배치 처리 효율 향상: 동시 요청 수 증가

구성요소

•Attention 변형: MQA(Multi-Query), GQA(Grouped-Query) — KV 헤드 수 축소
•메모리 관리: PagedAttention — 비연속 블록 할당으로 단편화 제거
•양자화: KVQuant, QJL, TurboQuant — KV 캐시 저비트 압축
•Eviction: H2O(Heavy-Hitter Oracle) — 중요도 낮은 KV 항목 제거
•스트리밍: StreamingLLM — 고정 윈도우로 무한 길이 추론
•재사용: Prefix Caching — 공통 프리픽스 KV 캐시 공유

비교: MHA(KV 헤드=Query/최고 품질/메모리↑) vs GQA(그룹별 공유/균형) vs MQA(KV 1개/메모리↓/소폭 저하)

적용사례: LLM 서빙(vLLM/PagedAttention), 긴 컨텍스트 처리(128K+), 멀티턴 대화(KV 재사용)

연관: Transformer, Self-Attention, LLM 추론, Flash Attention, 모델 서빙

목록 ←GraphRAG 다음: MQA (Multi-Query Attention)→