Learning
토픽 37 / 172·딥러닝

교차 검증 (Cross-Validation)

교차 검증 (Cross-Validation)

데이터를 여러 부분으로 나누어 학습과 검증을 반복 수행함으로써 모델의 일반화 성능을 더 정확하게 추정하고 과적합을 방지하는 모델 평가 기법

목적: 모델 일반화 성능 신뢰성 있는 추정, 과적합 탐지, 모델 선택·하이퍼파라미터 튜닝

유형

  • Hold-out: 학습/검증/테스트 단순 분할(70/15/15), 빠름, 분할 의존성
  • K-Fold: 데이터를 K개 폴드로 분할, K번 반복(1개 검증 + K-1개 학습), K=5 또는 10이 일반적
  • Stratified K-Fold: 각 폴드에서 클래스 비율 유지, 클래스 불균형 데이터에 필수
  • LOOCV(Leave-One-Out): N개 데이터 중 1개씩 검증, N번 반복, 편향 최소/분산 큼/느림
  • Repeated K-Fold: K-Fold를 여러 번 반복(셔플링), 분산 감소

하이퍼파라미터 튜닝 연계: Grid Search + CV, Random Search + CV, Bayesian Optimization + CV

주의사항: 시계열 데이터는 시간 순서 유지 필요(TimeSeriesSplit), 데이터 누출(Leakage) 방지(전처리도 CV 내부에서 수행)

비교: Hold-out(빠름/불안정) vs K-Fold(안정/K배느림) vs LOOCV(편향최소/매우느림) vs Stratified(불균형대응)

연관: 과적합, 모델 선택, 편향-분산 트레이드오프, 하이퍼파라미터 튜닝