Learning
토픽 183 / 201·학습 패러다임과 특수 모델

KVQuant

KVQuant

KV 캐시를 INT4/INT2 등 저비트로 양자화하여 메모리 사용량을 줄이면서 품질을 유지하는 기법

특징

  • Per-channel 양자화: 채널별 분포 차이를 반영한 정밀 양자화
  • 비균일 양자화: 민감도 기반 비균일 코드북 적용
  • Residual 양자화: 양자화 오차를 2차 양자화로 보상
  • 긴 컨텍스트 확대: 동일 메모리로 4~8배 긴 컨텍스트 처리

비교: FP16 KV(기준/품질 최고) vs INT4(메모리 1/4/미미한 저하/4배 확장) vs INT2(메모리 1/8/소폭 저하/Residual 필요)

구성요소: Per-channel 양자화, 비균일 코드북, Residual 양자화, 캘리브레이션 데이터

적용사례: 긴 컨텍스트 LLM 서빙(128K+), 엣지 디바이스 추론(메모리 절감), 배치 처리 확장

연관: KV 캐시 최적화, 양자화, LLM 추론, QJL, TurboQuant