토픽 183 / 201·학습 패러다임과 특수 모델

KVQuant

KV 캐시를 INT4/INT2 등 저비트로 양자화하여 메모리 사용량을 줄이면서 품질을 유지하는 기법

특징

비교: FP16 KV(기준/품질 최고) vs INT4(메모리 1/4/미미한 저하/4배 확장) vs INT2(메모리 1/8/소폭 저하/Residual 필요)

구성요소: Per-channel 양자화, 비균일 코드북, Residual 양자화, 캘리브레이션 데이터

적용사례: 긴 컨텍스트 LLM 서빙(128K+), 엣지 디바이스 추론(메모리 절감), 배치 처리 확장

연관: KV 캐시 최적화, 양자화, LLM 추론, QJL, TurboQuant