토픽 106 / 172·엣지 AI와 모델 경량화
모델 경량화
모델 경량화
딥러닝 모델의 크기와 연산량을 줄여 모바일·임베디드·엣지 디바이스에서 효율적으로 실행하도록 최적화하는 기술로, 양자화·프루닝·지식증류를 주로 사용
목적: 크기축소, 속도향상, 메모리절감, 에너지효율
주요기법
- •양자화(Quantization): FP32→INT8/INT4, 정밀도감소, 4~10배축소
- •프루닝(Pruning): 중요도낮은가중치제거, 희소모델, 구조적/비구조적
- •지식증류(Knowledge Distillation): 큰모델(Teacher)→작은모델(Student), 성능보존
- •저랭크분해(Low-Rank Decomposition): 행렬분해, 파라미터축소
- •MobileNet/EfficientNet: 경량아키텍처설계
도구: TensorFlow Lite, ONNX, PyTorch Mobile, OpenVINO, TensorRT(NVIDIA)
적용사례: 스마트폰AI(TFLite), 엣지디바이스(OpenVINO), 자율주행(TensorRT)
비교: 양자화(정밀도↓) vs 프루닝(파라미터제거) vs 증류(지식전이)
연관: 엣지AI, 양자화, 프루닝, 지식증류, TensorFlow Lite