Learning
토픽 38 / 107·클라우드 인프라 서비스

AI 데이터센터 인프라

AI 데이터센터 인프라

대규모 AI 학습·추론 워크로드를 위해 최적화된 데이터센터 인프라로, GPU/TPU 클러스터, 고대역폭 네트워크, 고밀도 냉각, 대규모 전력 등 AI 특화 설계를 적용 (관134회 출제)

핵심 요소

  • 컴퓨팅: GPU(NVIDIA H100/B200), TPU(Google), AI 가속기(Gaudi, Trainium)
  • 메모리: HBM(High Bandwidth Memory), HBM3E — 고대역폭·고용량
  • 인터커넥트: NVLink/NVSwitch(GPU 간), InfiniBand(노드 간), RoCE(RDMA over Ethernet)
  • 냉각: 고밀도 발열 대응(공냉→액냉→침수냉각)
  • 전력: 수십~수백MW 규모, UPS, 재생에너지

아키텍처

  • NVIDIA DGX SuperPOD: DGX 서버 집합, NVLink+InfiniBand, 수천 GPU 클러스터
  • Google TPU Pod: TPU v5p 수천 칩 연결, 고속 ICI(Inter-Chip Interconnect)
  • Meta MTIA: 자체 AI 가속기 기반 데이터센터

네트워크 토폴로지

  • Fat-Tree: 대역폭 균등, 범용
  • Rail-Optimized: GPU 간 직접 연결 최적화, 학습 트래픽 패턴에 특화
  • Dragonfly: 장거리 연결 효율, 대규모 클러스터

냉각 방식 비교

전력 이슈: AI DC 전력 수요 급증(1GW급 시설 등장), 재생에너지 확보, 전력망 부담, PUE 최적화

비교: AI DC(GPU 특화/고밀도/고전력) vs 범용 DC(CPU 중심/표준밀도/범용워크로드)

연관: GPU 컴퓨팅, HBM, AI 반도체, 그린 데이터센터, 클라우드 인프라