토픽 178 / 201·학습 패러다임과 특수 모델
KV 캐시 최적화 (KV Cache Optimization)
KV 캐시 최적화 (KV Cache Optimization)
LLM 추론 시 Key-Value 캐시의 메모리 사용량과 접근 효율을 최적화하는 기술
특징
- •메모리 병목 해소: 긴 시퀀스에서 KV 캐시가 GPU 메모리 지배
- •긴 컨텍스트 지원: 128K+ 컨텍스트 윈도우 실현
- •추론 지연시간 감소: 메모리 접근 최적화로 디코딩 속도 향상
- •배치 처리 효율 향상: 동시 요청 수 증가
구성요소
- •Attention 변형: MQA(Multi-Query), GQA(Grouped-Query) — KV 헤드 수 축소
- •메모리 관리: PagedAttention — 비연속 블록 할당으로 단편화 제거
- •양자화: KVQuant, QJL, TurboQuant — KV 캐시 저비트 압축
- •Eviction: H2O(Heavy-Hitter Oracle) — 중요도 낮은 KV 항목 제거
- •스트리밍: StreamingLLM — 고정 윈도우로 무한 길이 추론
- •재사용: Prefix Caching — 공통 프리픽스 KV 캐시 공유
비교: MHA(KV 헤드=Query/최고 품질/메모리↑) vs GQA(그룹별 공유/균형) vs MQA(KV 1개/메모리↓/소폭 저하)
적용사례: LLM 서빙(vLLM/PagedAttention), 긴 컨텍스트 처리(128K+), 멀티턴 대화(KV 재사용)
연관: Transformer, Self-Attention, LLM 추론, Flash Attention, 모델 서빙