토픽 38 / 107·클라우드 인프라 서비스
AI 데이터센터 인프라
AI 데이터센터 인프라
대규모 AI 학습·추론 워크로드를 위해 최적화된 데이터센터 인프라로, GPU/TPU 클러스터, 고대역폭 네트워크, 고밀도 냉각, 대규모 전력 등 AI 특화 설계를 적용 (관134회 출제)
핵심 요소
- •컴퓨팅: GPU(NVIDIA H100/B200), TPU(Google), AI 가속기(Gaudi, Trainium)
- •메모리: HBM(High Bandwidth Memory), HBM3E — 고대역폭·고용량
- •인터커넥트: NVLink/NVSwitch(GPU 간), InfiniBand(노드 간), RoCE(RDMA over Ethernet)
- •냉각: 고밀도 발열 대응(공냉→액냉→침수냉각)
- •전력: 수십~수백MW 규모, UPS, 재생에너지
아키텍처
- •NVIDIA DGX SuperPOD: DGX 서버 집합, NVLink+InfiniBand, 수천 GPU 클러스터
- •Google TPU Pod: TPU v5p 수천 칩 연결, 고속 ICI(Inter-Chip Interconnect)
- •Meta MTIA: 자체 AI 가속기 기반 데이터센터
네트워크 토폴로지
- •Fat-Tree: 대역폭 균등, 범용
- •Rail-Optimized: GPU 간 직접 연결 최적화, 학습 트래픽 패턴에 특화
- •Dragonfly: 장거리 연결 효율, 대규모 클러스터
냉각 방식 비교
전력 이슈: AI DC 전력 수요 급증(1GW급 시설 등장), 재생에너지 확보, 전력망 부담, PUE 최적화
비교: AI DC(GPU 특화/고밀도/고전력) vs 범용 DC(CPU 중심/표준밀도/범용워크로드)
연관: GPU 컴퓨팅, HBM, AI 반도체, 그린 데이터센터, 클라우드 인프라