토픽 133 / 172·고급 학습 기법
A/B 테스트 (ML 모델) (A/B Testing for ML Models)
A/B 테스트 (ML 모델) (A/B Testing for ML Models)
두 개 이상의 ML 모델 버전을 실제 트래픽에 노출시켜 성능을 비교하고, 통계적으로 유의미한 차이를 확인하여 최적의 모델을 선택하는 실험 방법론
목적: 모델 성능 비교, 데이터 기반 의사결정, 위험 최소화, 점진적 배포, 비즈니스 영향 측정
특징: 실제 트래픽 사용, 통계적 검정, 점진적 롤아웃, 메트릭 기반
실험 설계
- •가설 수립: 새 모델이 기존보다 CTR 5% 향상
- •표본 크기 계산: 통계적 검정력, 효과 크기
- •트래픽 분할: 랜덤 할당, 사용자 기반
- •메트릭 정의: 주요 지표(CTR, 전환율), 가드레일 메트릭
- •실험 기간: 충분한 데이터, 계절성 고려
배포 전략
- •Canary Release: 소수 트래픽(1-5%)으로 시작, 점진적 확대
- •Blue-Green: 두 환경 전환, 빠른 롤백
- •Shadow Mode: 실제 응답 없이 병렬 실행, 성능만 측정
- •Multi-Armed Bandit: 동적 트래픽 할당, 최적 모델에 더 많은 트래픽
통계적 검정: p-value, 신뢰구간, A/A 테스트(검증), Sequential Testing
ML 특화 고려사항: 피드백 루프 지연, Feature 일관성, 모델 신선도, 오프라인-온라인 괴리
장점: 실제 성능 검증, 위험 최소화, 데이터 기반, 점진적 배포
단점: 트래픽 분할 비용, 실험 기간, 복잡한 분석, 윤리적 고려
적용사례: 추천 시스템, 검색 순위, 광고 모델, 가격 책정
비교: A/B Test(두 버전) vs Canary(점진적) vs Shadow(병렬 측정) vs MAB(동적 할당)
연관: Canary 배포, 통계적 검정, 메트릭, 프로덕션 ML, 실험 플랫폼