Learning
토픽 106 / 172·엣지 AI와 모델 경량화

모델 경량화

모델 경량화

딥러닝 모델의 크기와 연산량을 줄여 모바일·임베디드·엣지 디바이스에서 효율적으로 실행하도록 최적화하는 기술로, 양자화·프루닝·지식증류를 주로 사용

목적: 크기축소, 속도향상, 메모리절감, 에너지효율

주요기법

  • 양자화(Quantization): FP32→INT8/INT4, 정밀도감소, 4~10배축소
  • 프루닝(Pruning): 중요도낮은가중치제거, 희소모델, 구조적/비구조적
  • 지식증류(Knowledge Distillation): 큰모델(Teacher)→작은모델(Student), 성능보존
  • 저랭크분해(Low-Rank Decomposition): 행렬분해, 파라미터축소
  • MobileNet/EfficientNet: 경량아키텍처설계

도구: TensorFlow Lite, ONNX, PyTorch Mobile, OpenVINO, TensorRT(NVIDIA)

적용사례: 스마트폰AI(TFLite), 엣지디바이스(OpenVINO), 자율주행(TensorRT)

비교: 양자화(정밀도↓) vs 프루닝(파라미터제거) vs 증류(지식전이)

연관: 엣지AI, 양자화, 프루닝, 지식증류, TensorFlow Lite