토픽 121 / 172·고급 학습 기법

지식 증류 (Knowledge Distillation)

큰 Teacher 모델의 지식(소프트 확률, 중간 표현)을 작은 Student 모델로 전달하여 Student가 Teacher 수준의 성능을 달성하도록 학습하는 모델 경량화 기법으로, Hinton의 Soft Target, KL Divergence 기반이며 모바일·엣지 배포에 활용

목적: 모델 경량화, 추론 속도 향상, 메모리 절감, 엣지 디바이스 배포, 성능 유지

특징: Teacher→Student 지식 전달, Soft Target(확률 분포), Temperature Scaling, 중간 표현 활용

구성요소

•Teacher Model: 큰 모델(BERT-Large, ResNet-152), 높은 성능, 사전학습·Fine-tuning 완료
•Student Model: 작은 모델(BERT-Base, MobileNet), 파라미터 적음, 빠른 추론
•Soft Target(소프트 레이블): Teacher의 출력 확률 분포(Softmax), 클래스 간 유사도 정보 포함
•Hard Target: 원본 레이블(One-Hot), 클래스만 표시
•Temperature(τ): Softmax 온도, 높으면 확률 부드러움(Soft), Distillation Loss 계산 시 사용

학습 과정

손실 함수

•Distillation Loss: KL(Teacher Soft || Student Soft), Temperature τ로 Softmax 부드럽게
•Hard Loss: Cross-Entropy(Student vs 원본 레이블)
•Feature Distillation: 중간 레이어 표현(Feature Map) 유사도(MSE, Attention)

변형

•Response-Based: 최종 출력(Logits) Distillation, 가장 일반적
•Feature-Based: 중간 레이어 Feature Map Distillation, FitNet, Attention Transfer
•Relation-Based: 샘플 간 관계(Similarity Matrix) Distillation
•Self-Distillation: Teacher=Student(같은 모델), 앙상블 Teacher

장점: 모델 크기·속도 대폭 개선, 성능 유지(Teacher 90~95%), 배포 용이, 데이터 효율적

단점: Teacher 성능에 의존, 학습 복잡도 증가, 극단적 압축 시 성능 저하, Hyperparameter 튜닝 필요

적용사례: BERT→DistilBERT(40% 작음, 97% 성능), MobileNet(엣지), TinyBERT, 음성 인식(ASR)

기술요소: Soft Target, Temperature Scaling, KL Divergence, Feature Distillation, Attention Transfer

비교: Distillation(지식 전달) vs Pruning(가지치기) vs Quantization(양자화) vs NAS(구조 탐색)

연관: Model Compression, DistilBERT, TinyBERT, MobileNet, Quantization, Pruning, Edge AI

목록 ←Contrastive Learning (대조학습)다음: Neural Architecture Search (NAS)→