토픽 126 / 172·고급 학습 기법
Data Augmentation (데이터 증강)
Data Augmentation (데이터 증강)
기존 학습 데이터에 변형을 가해 새로운 샘플을 생성하여 데이터셋 크기를 늘리고 모델의 일반화 성능과 과적합 방지를 향상시키는 기법
특징: 원본 데이터 변형, 레이블 유지, 학습 시 적용, 도메인별 기법, 자동화 가능
Vision Augmentation
- •기하 변형: Random Crop, Flip, Rotation, Affine
- •색상 변형: Brightness, Contrast, Color Jitter
- •Mixup: 두 이미지·레이블 선형 결합(x=λx1+(1-λ)x2)
- •CutMix: 한 이미지 영역을 다른 이미지로 대체, 레이블 비율 결합
NLP Augmentation
- •Back Translation: 번역(영→불→영)으로 표현 변형, 의미 유지
- •EDA(Easy Data Augmentation): 동의어 교체·랜덤삽입·삭제·교환
- •Contextual Replacement: BERT MLM으로 문맥 기반 단어 교체
Audio Augmentation: Time Stretching(속도변경), Pitch Shifting(피치변경), SpecAugment(스펙트로그램 마스킹)
자동 증강: AutoAugment(RL로 정책탐색·고비용), RandAugment(N·M 2개 파라미터·빠름), TrivialAugment(N=1·단순)
장점: 데이터셋 확대, 과적합 방지, 일반화 향상, 레이블 불필요
단점: 과도한 증강 시 성능 저하, 도메인 지식 필요, 계산 비용
적용사례: ImageNet(RandAugment), 의료 이미지(Flip·Rotation), NLP(Back Translation), ASR(SpecAugment)
비교: 기하변형(단순·안전) vs Mixup/CutMix(레이블결합·정규화효과) vs AutoAugment(자동탐색·최고성능)
연관: Regularization, Overfitting, AutoAugment, Mixup, CutMix, SpecAugment