Learning
토픽 166 / 172·고급 학습 기법

KVQuant

KVQuant

KV 캐시를 INT4/INT2 등 저비트로 양자화하여 메모리 사용량을 줄이면서 품질을 유지하는 기법

특징

  • Per-channel 양자화: 채널별 분포 차이를 반영한 정밀 양자화
  • 비균일 양자화: 민감도 기반 비균일 코드북 적용
  • Residual 양자화: 양자화 오차를 2차 양자화로 보상
  • 긴 컨텍스트 확대: 동일 메모리로 4~8배 긴 컨텍스트 처리

비교