토픽 161 / 172·고급 학습 기법
KV 캐시 최적화 (KV Cache Optimization)
KV 캐시 최적화 (KV Cache Optimization)
LLM 추론 시 Key-Value 캐시의 메모리 사용량과 접근 효율을 최적화하는 기술
특징
- •메모리 병목 해소: 긴 시퀀스에서 KV 캐시가 GPU 메모리 지배
- •긴 컨텍스트 지원: 128K+ 컨텍스트 윈도우 실현
- •추론 지연시간 감소: 메모리 접근 최적화로 디코딩 속도 향상
- •배치 처리 효율 향상: 동시 요청 수 증가
구성요소
- •Attention 변형: MQA(Multi-Query), GQA(Grouped-Query) — KV 헤드 수 축소
- •메모리 관리: PagedAttention — 비연속 블록 할당으로 단편화 제거
- •양자화: KVQuant, QJL, TurboQuant — KV 캐시 저비트 압축
- •Eviction: H2O(Heavy-Hitter Oracle) — 중요도 낮은 KV 항목 제거
- •스트리밍: StreamingLLM — 고정 윈도우로 무한 길이 추론
- •재사용: Prefix Caching — 공통 프리픽스 KV 캐시 공유
비교