토픽 124 / 172·고급 학습 기법
양자화 (Quantization, Model Quantization)
양자화 (Quantization, Model Quantization)
신경망 가중치·활성화를 고정밀도(FP32)에서 저정밀도(INT8/INT4/FP16)로 변환하여 모델 크기 축소와 추론 속도 향상을 달성하는 경량화 핵심 기법
특징: 4배 압축(FP32→INT8), 하드웨어 가속(INT8 연산), 정확도 소폭 감소
구성요소: Quantization 함수(q=round(r/S)+Z), Scale, Zero-Point, Calibration Dataset
방법론
- •PTQ(Post-Training): 학습 후 양자화, 빠름(분~시간), 정확도 1~2% 감소, 재학습 불필요
- •QAT(Quantization-Aware Training): 학습 중 Fake Quantization, 정확도 유지, 복잡
- •Dynamic: 추론 시 활성화만 양자화
- •Static: 가중치+활성화 사전 양자화, Calibration 필요, 최대 속도
LLM 양자화: GPTQ(PTQ 기반/가중치 전용/3~4bit/빠른 변환), AWQ(Activation-aware/중요 가중치 보존/4bit/높은 정확도), GGML/GGUF(CPU 추론 최적화/로컬 실행)
정밀도: FP32(원본/기준) → FP16/BF16(2배 압축/정확도 유지) → INT8(4배 압축/소폭 감소) → INT4(8배 압축/감소 큼)
장점: 크기 4~8배 감소, 추론 2~4배 빠름, 엣지 배포 가능
단점: 정확도 감소, Calibration 필요, INT4 성능 저하
적용사례: 모바일(TF Lite), 엣지(Jetson), LLM(GPTQ/INT4)
비교: PTQ(빠름/정확도↓) vs QAT(느림/정확도↑) vs Pruning(가중치 제거/구조 변경) vs Distillation(모델 교체/Teacher→Student)
연관: 모델 경량화, 엣지 AI, GPTQ, AWQ, TensorRT, Model Compression