토픽 169 / 172·고급 학습 기법
AI 학습 병렬화 전략 (Distributed Training Parallelism)
AI 학습 병렬화 전략 (Distributed Training Parallelism)
대규모 AI 모델 학습을 다수의 GPU/노드에 분산하여 처리하는 병렬화 기법 체계
특징
- •모델 크기 대응: 수십~수천억 파라미터 모델 학습 가능
- •GPU 메모리 한계 극복: 단일 GPU에 적재 불가능한 모델 분산
- •학습 시간 단축: 데이터/연산 분산으로 선형에 가까운 속도 향상
종류
- •데이터 병렬화(DP, Data Parallelism): 데이터 분할, 모델 복제, 기울기 동기화(AllReduce)
- •텐서 병렬화(TP, Tensor Parallelism): 레이어 내 행렬 연산을 GPU 간 분할 (Megatron-LM)
- •파이프라인 병렬화(PP, Pipeline Parallelism): 레이어를 스테이지로 나누어 GPU에 순차 배치, 마이크로배치로 버블 최소화
- •ZeRO(Zero Redundancy Optimizer): 옵티마이저 상태/기울기/파라미터를 GPU 간 분할 저장 (DeepSpeed)
- •FSDP(Fully Sharded Data Parallel): ZeRO-3의 PyTorch 네이티브 구현, 파라미터 완전 샤딩
- •Expert Parallelism: MoE 모델에서 Expert를 GPU 간 분산 배치
비교