토픽 168 / 172·고급 학습 기법

TurboQuant

TurboQuant

Google이 개발한 INT1~INT4 혼합정밀도 KV 캐시 양자화 기법으로 레이어별 최적 비트폭을 자동 결정

특징

•레이어별 감도 분석: Attention 패턴 분석으로 레이어별 최적 비트 할당
•INT1(이진) 극한 압축: 민감도 낮은 레이어에 1비트 양자화 적용
•품질 저하 최소화: 민감 레이어는 높은 비트폭 유지
•2025년 Google 공개: Gemma/Gemini 모델에 적용

동작원리: 레이어별 KV 캐시 감도 측정 → 비트 예산 배분 최적화 → 민감 레이어 INT4, 비민감 레이어 INT1~2 할당 → 혼합정밀도 추론

비교

목록 ←QJL (Quantized Johnson-Lindenstrauss Transform)다음: AI 학습 병렬화 전략 (Distributed Training Parallelism)→