토픽 134 / 172·고급 학습 기법

데이터 드리프트 / 컨셉트 드리프트 (Data Drift / Concept Drift)

Data Drift는 모델 입력 데이터의 분포가 학습 시점과 달라지는 현상이고, Concept Drift는 입력과 출력 간의 관계(P(Y|X))가 변화하는 현상으로, 모델 성능 저하의 주요 원인

목적: 모델 성능 유지, 재학습 시점 결정, 프로덕션 품질 보장, 조기 경보

특징: 시간에 따른 변화, 탐지 필요, 모델 재학습 트리거, 지속적 모니터링

드리프트 유형

탐지 방법

대응 전략

모니터링 도구: Evidently AI, Alibi Detect, Fiddler, Arize, WhyLabs

장점: 성능 저하 조기 탐지, 적시 재학습, 프로덕션 품질 유지

단점: 모니터링 비용, 오탐 가능, 정상 변화와 구분 어려움

적용사례: 금융 사기 탐지, 추천 시스템, 수요 예측, 의료 진단

비교: Data Drift(입력 분포) vs Concept Drift(관계 변화) vs Label Drift(출력 분포)

연관: MLOps, 모델 모니터링, 재학습, Feature Store, 성능 저하