토픽 124 / 172·고급 학습 기법

양자화 (Quantization, Model Quantization)

신경망 가중치·활성화를 고정밀도(FP32)에서 저정밀도(INT8/INT4/FP16)로 변환하여 모델 크기 축소와 추론 속도 향상을 달성하는 경량화 핵심 기법

특징: 4배 압축(FP32→INT8), 하드웨어 가속(INT8 연산), 정확도 소폭 감소

구성요소: Quantization 함수(q=round(r/S)+Z), Scale, Zero-Point, Calibration Dataset

방법론

LLM 양자화: GPTQ(PTQ 기반/가중치 전용/3~4bit/빠른 변환), AWQ(Activation-aware/중요 가중치 보존/4bit/높은 정확도), GGML/GGUF(CPU 추론 최적화/로컬 실행)

정밀도: FP32(원본/기준) → FP16/BF16(2배 압축/정확도 유지) → INT8(4배 압축/소폭 감소) → INT4(8배 압축/감소 큼)

장점: 크기 4~8배 감소, 추론 2~4배 빠름, 엣지 배포 가능

단점: 정확도 감소, Calibration 필요, INT4 성능 저하

적용사례: 모바일(TF Lite), 엣지(Jetson), LLM(GPTQ/INT4)

비교: PTQ(빠름/정확도↓) vs QAT(느림/정확도↑) vs Pruning(가중치 제거/구조 변경) vs Distillation(모델 교체/Teacher→Student)

연관: 모델 경량화, 엣지 AI, GPTQ, AWQ, TensorRT, Model Compression