토픽 39 / 172·딥러닝

Batch Normalization

미니배치 단위로 각 층의 입력을 평균 0, 분산 1로 정규화한 뒤 학습 가능한 파라미터 gamma(스케일)·beta(시프트)를 적용하여 내부 공변량 이동(Internal Covariate Shift)을 방지하고 학습을 안정화·가속하는 기법

동작: 배치 내 평균·분산 계산 → 정규화(x_hat = (x-mu)/sqrt(var+eps)) → 스케일·시프트(y = gamma*x_hat + beta), 추론 시 학습 중 이동 평균 사용

효과: 더 큰 학습률 사용 가능(학습 가속), 가중치 초기화 민감도 감소, 약한 정규화 효과(Dropout 대체 가능), 기울기 흐름 개선

한계: 배치 크기 의존(작은 배치 시 통계 불안정), 시퀀스 길이 가변 시 부적합(RNN/Transformer), 추론 시 배치 통계 불일치 가능

비교: BN(배치 단위/CNN 표준/배치 의존) vs LN(층 단위/Transformer 표준/배치 무관) vs GN(그룹 단위/소배치 안정/객체 탐지) vs IN(인스턴스 단위/스타일 전이)

연관: 과적합/정규화, CNN, 학습 안정화, Layer Normalization