토픽 136 / 172·고급 학습 기법

모델 압축 기법 상세 (Model Compression Techniques)

대규모 ML 모델의 크기와 연산량을 줄여 추론 속도 향상, 메모리 감소, 엣지 배포를 가능하게 하는 기법으로, Quantization, Pruning, Knowledge Distillation, Low-Rank Factorization 등을 포함

목적: 모델 경량화, 추론 속도 향상, 메모리 절감, 엣지/모바일 배포, 비용 절감

특징: 정확도-효율성 트레이드오프, 기법 조합 가능, 하드웨어 최적화 연계

압축 기법

LLM 압축: GPTQ(4bit Quantization), AWQ, GGUF, bitsandbytes

장점: 크기 감소(2-10배), 속도 향상(2-4배), 엣지 배포, 비용 절감

단점: 정확도 감소 가능, 구현 복잡, 하드웨어 의존, 튜닝 필요

적용사례: 모바일 AI, 엣지 디바이스, LLM 경량화, IoT

비교: Quantization(정밀도↓) vs Pruning(가중치 제거) vs Distillation(모델 축소)

연관: Edge AI, TensorRT, ONNX, LoRA, LLM 최적화