토픽 136 / 172·고급 학습 기법
모델 압축 기법 상세 (Model Compression Techniques)
모델 압축 기법 상세 (Model Compression Techniques)
대규모 ML 모델의 크기와 연산량을 줄여 추론 속도 향상, 메모리 감소, 엣지 배포를 가능하게 하는 기법으로, Quantization, Pruning, Knowledge Distillation, Low-Rank Factorization 등을 포함
목적: 모델 경량화, 추론 속도 향상, 메모리 절감, 엣지/모바일 배포, 비용 절감
특징: 정확도-효율성 트레이드오프, 기법 조합 가능, 하드웨어 최적화 연계
압축 기법
- •Quantization(양자화):
- •Pruning(가지치기):
- •Knowledge Distillation(지식 증류):
- •Low-Rank Factorization:
- •Weight Sharing: 가중치 공유, 군집화
LLM 압축: GPTQ(4bit Quantization), AWQ, GGUF, bitsandbytes
장점: 크기 감소(2-10배), 속도 향상(2-4배), 엣지 배포, 비용 절감
단점: 정확도 감소 가능, 구현 복잡, 하드웨어 의존, 튜닝 필요
적용사례: 모바일 AI, 엣지 디바이스, LLM 경량화, IoT
비교: Quantization(정밀도↓) vs Pruning(가중치 제거) vs Distillation(모델 축소)
연관: Edge AI, TensorRT, ONNX, LoRA, LLM 최적화