토픽 126 / 172·고급 학습 기법

Data Augmentation (데이터 증강)

기존 학습 데이터에 변형을 가해 새로운 샘플을 생성하여 데이터셋 크기를 늘리고 모델의 일반화 성능과 과적합 방지를 향상시키는 기법

특징: 원본 데이터 변형, 레이블 유지, 학습 시 적용, 도메인별 기법, 자동화 가능

Vision Augmentation

NLP Augmentation

Audio Augmentation: Time Stretching(속도변경), Pitch Shifting(피치변경), SpecAugment(스펙트로그램 마스킹)

자동 증강: AutoAugment(RL로 정책탐색·고비용), RandAugment(N·M 2개 파라미터·빠름), TrivialAugment(N=1·단순)

장점: 데이터셋 확대, 과적합 방지, 일반화 향상, 레이블 불필요

단점: 과도한 증강 시 성능 저하, 도메인 지식 필요, 계산 비용

적용사례: ImageNet(RandAugment), 의료 이미지(Flip·Rotation), NLP(Back Translation), ASR(SpecAugment)

비교: 기하변형(단순·안전) vs Mixup/CutMix(레이블결합·정규화효과) vs AutoAugment(자동탐색·최고성능)

연관: Regularization, Overfitting, AutoAugment, Mixup, CutMix, SpecAugment