토픽 134 / 172·고급 학습 기법
데이터 드리프트 / 컨셉트 드리프트 (Data Drift / Concept Drift)
데이터 드리프트 / 컨셉트 드리프트 (Data Drift / Concept Drift)
Data Drift는 모델 입력 데이터의 분포가 학습 시점과 달라지는 현상이고, Concept Drift는 입력과 출력 간의 관계(P(Y|X))가 변화하는 현상으로, 모델 성능 저하의 주요 원인
목적: 모델 성능 유지, 재학습 시점 결정, 프로덕션 품질 보장, 조기 경보
특징: 시간에 따른 변화, 탐지 필요, 모델 재학습 트리거, 지속적 모니터링
드리프트 유형
- •Data Drift(Covariate Shift): P(X) 변화, 입력 분포 변화
- •Concept Drift: P(Y|X) 변화, 입력-출력 관계 변화
- •Label Drift: P(Y) 변화, 레이블 분포 변화
- •Prediction Drift: 예측 분포 변화, 모델 출력 변화
탐지 방법
- •통계적 검정: KS Test, Chi-Square, PSI(Population Stability Index)
- •분포 거리: KL Divergence, JS Divergence, Wasserstein Distance
- •모델 기반: 분류기 2샘플 테스트, 드리프트 감지 모델
- •성능 기반: 정확도 하락, 비즈니스 메트릭 변화
대응 전략
- •정기 재학습(Scheduled Retraining)
- •트리거 기반 재학습(Drift 탐지 시)
- •온라인 학습(Continuous Learning)
- •앙상블/적응형 모델
모니터링 도구: Evidently AI, Alibi Detect, Fiddler, Arize, WhyLabs
장점: 성능 저하 조기 탐지, 적시 재학습, 프로덕션 품질 유지
단점: 모니터링 비용, 오탐 가능, 정상 변화와 구분 어려움
적용사례: 금융 사기 탐지, 추천 시스템, 수요 예측, 의료 진단
비교: Data Drift(입력 분포) vs Concept Drift(관계 변화) vs Label Drift(출력 분포)
연관: MLOps, 모델 모니터링, 재학습, Feature Store, 성능 저하