Learning
토픽 134 / 172·고급 학습 기법

데이터 드리프트 / 컨셉트 드리프트 (Data Drift / Concept Drift)

데이터 드리프트 / 컨셉트 드리프트 (Data Drift / Concept Drift)

Data Drift는 모델 입력 데이터의 분포가 학습 시점과 달라지는 현상이고, Concept Drift는 입력과 출력 간의 관계(P(Y|X))가 변화하는 현상으로, 모델 성능 저하의 주요 원인

목적: 모델 성능 유지, 재학습 시점 결정, 프로덕션 품질 보장, 조기 경보

특징: 시간에 따른 변화, 탐지 필요, 모델 재학습 트리거, 지속적 모니터링

드리프트 유형

  • Data Drift(Covariate Shift): P(X) 변화, 입력 분포 변화
  • Concept Drift: P(Y|X) 변화, 입력-출력 관계 변화
  • Label Drift: P(Y) 변화, 레이블 분포 변화
  • Prediction Drift: 예측 분포 변화, 모델 출력 변화

탐지 방법

  • 통계적 검정: KS Test, Chi-Square, PSI(Population Stability Index)
  • 분포 거리: KL Divergence, JS Divergence, Wasserstein Distance
  • 모델 기반: 분류기 2샘플 테스트, 드리프트 감지 모델
  • 성능 기반: 정확도 하락, 비즈니스 메트릭 변화

대응 전략

  • 정기 재학습(Scheduled Retraining)
  • 트리거 기반 재학습(Drift 탐지 시)
  • 온라인 학습(Continuous Learning)
  • 앙상블/적응형 모델

모니터링 도구: Evidently AI, Alibi Detect, Fiddler, Arize, WhyLabs

장점: 성능 저하 조기 탐지, 적시 재학습, 프로덕션 품질 유지

단점: 모니터링 비용, 오탐 가능, 정상 변화와 구분 어려움

적용사례: 금융 사기 탐지, 추천 시스템, 수요 예측, 의료 진단

비교: Data Drift(입력 분포) vs Concept Drift(관계 변화) vs Label Drift(출력 분포)

연관: MLOps, 모델 모니터링, 재학습, Feature Store, 성능 저하