Learning
토픽 169 / 172·고급 학습 기법

AI 학습 병렬화 전략 (Distributed Training Parallelism)

AI 학습 병렬화 전략 (Distributed Training Parallelism)

대규모 AI 모델 학습을 다수의 GPU/노드에 분산하여 처리하는 병렬화 기법 체계

특징

  • 모델 크기 대응: 수십~수천억 파라미터 모델 학습 가능
  • GPU 메모리 한계 극복: 단일 GPU에 적재 불가능한 모델 분산
  • 학습 시간 단축: 데이터/연산 분산으로 선형에 가까운 속도 향상

종류

  • 데이터 병렬화(DP, Data Parallelism): 데이터 분할, 모델 복제, 기울기 동기화(AllReduce)
  • 텐서 병렬화(TP, Tensor Parallelism): 레이어 내 행렬 연산을 GPU 간 분할 (Megatron-LM)
  • 파이프라인 병렬화(PP, Pipeline Parallelism): 레이어를 스테이지로 나누어 GPU에 순차 배치, 마이크로배치로 버블 최소화
  • ZeRO(Zero Redundancy Optimizer): 옵티마이저 상태/기울기/파라미터를 GPU 간 분할 저장 (DeepSpeed)
  • FSDP(Fully Sharded Data Parallel): ZeRO-3의 PyTorch 네이티브 구현, 파라미터 완전 샤딩
  • Expert Parallelism: MoE 모델에서 Expert를 GPU 간 분산 배치

비교