토픽 121 / 172·고급 학습 기법
지식 증류 (Knowledge Distillation)
지식 증류 (Knowledge Distillation)
큰 Teacher 모델의 지식(소프트 확률, 중간 표현)을 작은 Student 모델로 전달하여 Student가 Teacher 수준의 성능을 달성하도록 학습하는 모델 경량화 기법으로, Hinton의 Soft Target, KL Divergence 기반이며 모바일·엣지 배포에 활용
목적: 모델 경량화, 추론 속도 향상, 메모리 절감, 엣지 디바이스 배포, 성능 유지
특징: Teacher→Student 지식 전달, Soft Target(확률 분포), Temperature Scaling, 중간 표현 활용
구성요소
- •Teacher Model: 큰 모델(BERT-Large, ResNet-152), 높은 성능, 사전학습·Fine-tuning 완료
- •Student Model: 작은 모델(BERT-Base, MobileNet), 파라미터 적음, 빠른 추론
- •Soft Target(소프트 레이블): Teacher의 출력 확률 분포(Softmax), 클래스 간 유사도 정보 포함
- •Hard Target: 원본 레이블(One-Hot), 클래스만 표시
- •Temperature(τ): Softmax 온도, 높으면 확률 부드러움(Soft), Distillation Loss 계산 시 사용
학습 과정
손실 함수
- •Distillation Loss: KL(Teacher Soft || Student Soft), Temperature τ로 Softmax 부드럽게
- •Hard Loss: Cross-Entropy(Student vs 원본 레이블)
- •Feature Distillation: 중간 레이어 표현(Feature Map) 유사도(MSE, Attention)
변형
- •Response-Based: 최종 출력(Logits) Distillation, 가장 일반적
- •Feature-Based: 중간 레이어 Feature Map Distillation, FitNet, Attention Transfer
- •Relation-Based: 샘플 간 관계(Similarity Matrix) Distillation
- •Self-Distillation: Teacher=Student(같은 모델), 앙상블 Teacher
장점: 모델 크기·속도 대폭 개선, 성능 유지(Teacher 90~95%), 배포 용이, 데이터 효율적
단점: Teacher 성능에 의존, 학습 복잡도 증가, 극단적 압축 시 성능 저하, Hyperparameter 튜닝 필요
적용사례: BERT→DistilBERT(40% 작음, 97% 성능), MobileNet(엣지), TinyBERT, 음성 인식(ASR)
기술요소: Soft Target, Temperature Scaling, KL Divergence, Feature Distillation, Attention Transfer
비교: Distillation(지식 전달) vs Pruning(가지치기) vs Quantization(양자화) vs NAS(구조 탐색)
연관: Model Compression, DistilBERT, TinyBERT, MobileNet, Quantization, Pruning, Edge AI