토픽 40 / 172·딥러닝

Dropout

학습 시 각 뉴런을 확률 p(보통 0.2~0.5)로 무작위 비활성화하여 특정 뉴런 의존을 방지하고 앙상블 효과를 통해 과적합을 억제하는 정규화 기법

동작: 학습 시 뉴런 무작위 마스킹(출력 0) → 매 배치 다른 서브네트워크 학습 → 추론 시 전체 뉴런 사용(가중치에 (1-p) 스케일링 또는 Inverted Dropout)

앙상블 효과: 2^n개 서브네트워크를 암묵적으로 학습, 추론 시 앙상블 평균 근사, 뉴런 간 co-adaptation 방지

적용 위치: FC층(가장 일반적/p=0.5), Transformer(Attention/FFN 뒤/p=0.1), CNN(BatchNorm과 함께 사용), 입력층(p=0.2 낮게)

비교: Dropout(뉴런 제거/앙상블 효과/학습 시간 증가) vs DropConnect(가중치 제거) vs DropBlock(영역 단위 제거/CNN 특화) vs Stochastic Depth(레이어 단위 스킵/ResNet)

연관: 과적합/정규화, 앙상블, Batch Normalization, Transformer