Learning
토픽 137 / 172·고급 학습 기법

Hyperparameter Tuning

Hyperparameter Tuning

모델 학습 전에 설정해야 하는 하이퍼파라미터(학습률, 배치 크기, 레이어 수 등)의 최적 조합을 탐색하여 모델 성능을 최대화하는 프로세스

목적: 모델 성능 최적화, 일반화 향상, 과적합 방지, 학습 효율화

특징: 학습 전 결정, 탐색 공간 정의, 평가 메트릭 기반, 계산 비용 높음

주요 하이퍼파라미터

  • 학습률(Learning Rate): 가장 중요, 수렴 속도와 안정성
  • 배치 크기(Batch Size): 메모리, 일반화 영향
  • 에폭(Epochs): 과적합 방지, Early Stopping
  • 레이어 수/유닛 수: 모델 용량
  • 정규화: Dropout, Weight Decay
  • 옵티마이저: Adam, SGD, AdamW

탐색 방법

  • Grid Search: 모든 조합 탐색, 완전 탐색, 비효율
  • Random Search: 랜덤 샘플링, Grid보다 효율적, 간단
  • Bayesian Optimization: 확률 모델 기반, 효율적 탐색, Optuna
  • Hyperband: Early Stopping 기반, 리소스 효율적
  • Population Based Training(PBT): 진화 알고리즘, 동적 조정

자동화 도구: Optuna, Ray Tune, Keras Tuner, W&B Sweeps, SageMaker HPO

Cross-Validation: K-Fold, 과적합 방지, 일반화 성능 추정

장점: 성능 향상, 자동화, 재현성, 효율적 탐색

단점: 계산 비용, 탐색 공간 설계, 과적합 위험, 시간 소요

적용사례: 신경망 아키텍처 최적화, XGBoost 파라미터, LLM 파인튜닝

비교: Grid(완전) vs Random(효율적) vs Bayesian(지능적) vs Hyperband(빠른)

연관: 모델 학습, Optuna, Cross-Validation, AutoML, 성능 최적화