토픽 185 / 201·학습 패러다임과 특수 모델

TurboQuant

Google이 개발한 INT1~INT4 혼합정밀도 KV 캐시 양자화 기법으로 레이어별 최적 비트폭을 자동 결정

특징

동작원리: 레이어별 KV 캐시 감도 측정 → 비트 예산 배분 최적화 → 민감 레이어 INT4, 비민감 레이어 INT1~2 할당 → 혼합정밀도 추론

비교: 균일 양자화(전 레이어 INT4/4배 절감) vs TurboQuant(레이어별 INT1~4 가변/5~8배 절감/동등 품질)

적용사례: Gemini/Gemma 모델 KV 캐시 최적화, 극한 메모리 절감(INT1 적용), 대규모 LLM 서빙 비용 절감

연관: KV 캐시 최적화, 혼합정밀도 양자화, KVQuant, LLM 추론