토픽 37 / 172·딥러닝
교차 검증 (Cross-Validation)
교차 검증 (Cross-Validation)
데이터를 여러 부분으로 나누어 학습과 검증을 반복 수행함으로써 모델의 일반화 성능을 더 정확하게 추정하고 과적합을 방지하는 모델 평가 기법
목적: 모델 일반화 성능 신뢰성 있는 추정, 과적합 탐지, 모델 선택·하이퍼파라미터 튜닝
유형
- •Hold-out: 학습/검증/테스트 단순 분할(70/15/15), 빠름, 분할 의존성
- •K-Fold: 데이터를 K개 폴드로 분할, K번 반복(1개 검증 + K-1개 학습), K=5 또는 10이 일반적
- •Stratified K-Fold: 각 폴드에서 클래스 비율 유지, 클래스 불균형 데이터에 필수
- •LOOCV(Leave-One-Out): N개 데이터 중 1개씩 검증, N번 반복, 편향 최소/분산 큼/느림
- •Repeated K-Fold: K-Fold를 여러 번 반복(셔플링), 분산 감소
하이퍼파라미터 튜닝 연계: Grid Search + CV, Random Search + CV, Bayesian Optimization + CV
주의사항: 시계열 데이터는 시간 순서 유지 필요(TimeSeriesSplit), 데이터 누출(Leakage) 방지(전처리도 CV 내부에서 수행)
비교: Hold-out(빠름/불안정) vs K-Fold(안정/K배느림) vs LOOCV(편향최소/매우느림) vs Stratified(불균형대응)
연관: 과적합, 모델 선택, 편향-분산 트레이드오프, 하이퍼파라미터 튜닝