토픽 33 / 172·딥러닝

최적화 알고리즘 (Optimizer)

손실함수를 최소화하도록 모델 파라미터를 효율적으로 업데이트하는 알고리즘

SGD: θ=θ-α·∇L, 노이즈 있는 기울기, 진동 발생, 수렴 느림

Momentum: v_t=β·v_(t-1)+α·∇L, 관성 축적, 진동 감소, Nesterov(미래 위치 기울기)

AdaGrad: 파라미터별 기울기 제곱 누적으로 학습률 자동 조정, 희소 데이터 유리, 후반 학습 정체

RMSprop: AdaGrad의 지수이동평균 개선, 최근 기울기 비중↑, RNN에 효과적

Adam: Momentum(1차 모멘트) + RMSprop(2차 모멘트), 편향 보정, 범용 기본 옵티마이저

AdamW: Adam + Weight Decay 분리, 일반화 향상, Transformer/LLM 표준

비교: SGD(느림/일반화우수) vs Momentum(빠름/진동감소) vs Adam(적응적/범용) vs AdamW(정규화/Transformer)

학습률 스케줄링: Step Decay, Cosine Annealing, Warmup+Decay(Transformer)

선택기준: 기본(Adam), Transformer(AdamW), RNN(RMSprop), 최고 일반화(SGD+스케줄링)

연관: 역전파, 경사하강법, 학습률, 하이퍼파라미터