Learning
토픽 161 / 172·고급 학습 기법

KV 캐시 최적화 (KV Cache Optimization)

KV 캐시 최적화 (KV Cache Optimization)

LLM 추론 시 Key-Value 캐시의 메모리 사용량과 접근 효율을 최적화하는 기술

특징

  • 메모리 병목 해소: 긴 시퀀스에서 KV 캐시가 GPU 메모리 지배
  • 긴 컨텍스트 지원: 128K+ 컨텍스트 윈도우 실현
  • 추론 지연시간 감소: 메모리 접근 최적화로 디코딩 속도 향상
  • 배치 처리 효율 향상: 동시 요청 수 증가

구성요소

  • Attention 변형: MQA(Multi-Query), GQA(Grouped-Query) — KV 헤드 수 축소
  • 메모리 관리: PagedAttention — 비연속 블록 할당으로 단편화 제거
  • 양자화: KVQuant, QJL, TurboQuant — KV 캐시 저비트 압축
  • Eviction: H2O(Heavy-Hitter Oracle) — 중요도 낮은 KV 항목 제거
  • 스트리밍: StreamingLLM — 고정 윈도우로 무한 길이 추론
  • 재사용: Prefix Caching — 공통 프리픽스 KV 캐시 공유

비교