토픽 137 / 172·고급 학습 기법
Hyperparameter Tuning
Hyperparameter Tuning
모델 학습 전에 설정해야 하는 하이퍼파라미터(학습률, 배치 크기, 레이어 수 등)의 최적 조합을 탐색하여 모델 성능을 최대화하는 프로세스
목적: 모델 성능 최적화, 일반화 향상, 과적합 방지, 학습 효율화
특징: 학습 전 결정, 탐색 공간 정의, 평가 메트릭 기반, 계산 비용 높음
주요 하이퍼파라미터
- •학습률(Learning Rate): 가장 중요, 수렴 속도와 안정성
- •배치 크기(Batch Size): 메모리, 일반화 영향
- •에폭(Epochs): 과적합 방지, Early Stopping
- •레이어 수/유닛 수: 모델 용량
- •정규화: Dropout, Weight Decay
- •옵티마이저: Adam, SGD, AdamW
탐색 방법
- •Grid Search: 모든 조합 탐색, 완전 탐색, 비효율
- •Random Search: 랜덤 샘플링, Grid보다 효율적, 간단
- •Bayesian Optimization: 확률 모델 기반, 효율적 탐색, Optuna
- •Hyperband: Early Stopping 기반, 리소스 효율적
- •Population Based Training(PBT): 진화 알고리즘, 동적 조정
자동화 도구: Optuna, Ray Tune, Keras Tuner, W&B Sweeps, SageMaker HPO
Cross-Validation: K-Fold, 과적합 방지, 일반화 성능 추정
장점: 성능 향상, 자동화, 재현성, 효율적 탐색
단점: 계산 비용, 탐색 공간 설계, 과적합 위험, 시간 소요
적용사례: 신경망 아키텍처 최적화, XGBoost 파라미터, LLM 파인튜닝
비교: Grid(완전) vs Random(효율적) vs Bayesian(지능적) vs Hyperband(빠른)
연관: 모델 학습, Optuna, Cross-Validation, AutoML, 성능 최적화