토픽 161 / 172·고급 학습 기법

KV 캐시 최적화 (KV Cache Optimization)

KV 캐시 최적화 (KV Cache Optimization)

LLM 추론 시 Key-Value 캐시의 메모리 사용량과 접근 효율을 최적화하는 기술

특징

•메모리 병목 해소: 긴 시퀀스에서 KV 캐시가 GPU 메모리 지배
•긴 컨텍스트 지원: 128K+ 컨텍스트 윈도우 실현
•추론 지연시간 감소: 메모리 접근 최적화로 디코딩 속도 향상
•배치 처리 효율 향상: 동시 요청 수 증가

구성요소

•Attention 변형: MQA(Multi-Query), GQA(Grouped-Query) — KV 헤드 수 축소
•메모리 관리: PagedAttention — 비연속 블록 할당으로 단편화 제거
•양자화: KVQuant, QJL, TurboQuant — KV 캐시 저비트 압축
•Eviction: H2O(Heavy-Hitter Oracle) — 중요도 낮은 KV 항목 제거
•스트리밍: StreamingLLM — 고정 윈도우로 무한 길이 추론
•재사용: Prefix Caching — 공통 프리픽스 KV 캐시 공유

비교

목록 ←GraphRAG 다음: MQA (Multi-Query Attention)→