토픽 166 / 172·고급 학습 기법
KVQuant
KVQuant
KV 캐시를 INT4/INT2 등 저비트로 양자화하여 메모리 사용량을 줄이면서 품질을 유지하는 기법
특징
- •Per-channel 양자화: 채널별 분포 차이를 반영한 정밀 양자화
- •비균일 양자화: 민감도 기반 비균일 코드북 적용
- •Residual 양자화: 양자화 오차를 2차 양자화로 보상
- •긴 컨텍스트 확대: 동일 메모리로 4~8배 긴 컨텍스트 처리
비교
KV 캐시를 INT4/INT2 등 저비트로 양자화하여 메모리 사용량을 줄이면서 품질을 유지하는 기법
특징
비교