토픽 6 / 36·Part 1. 핵심 트렌드
GPU/AI 인프라
6. GPU/AI 인프라
AI 훈련/추론을 위한 대규모 GPU 클러스터와 전용 인프라
6-1. 하드웨어/데이터센터 관점
AI Factory (NVIDIA GB200 NVL72 랙)
← GPU 클러스터 (InfiniBand/RoCE 인터커넥트)
← HBM3E / CXL 메모리 확장
← NVLink / PCIe 6.0
← GPU 아키텍처 (CUDA 코어, 텐서 코어)
← 병렬 처리 / SIMD
← 컴퓨터구조 (프로세서/메모리/버스)
← 디지털 논리 / 불 대수6-2. 소프트웨어 스택 관점
AI 인프라 관리 (Kubernetes + GPU Operator)
← MLOps / LLMOps (모델 라이프사이클)
← 분산 훈련 프레임워크 (DeepSpeed, Megatron)
← 컨테이너 오케스트레이션 (K8s)
← 컨테이너 (Docker, OCI)
← 가상화 (하이퍼바이저 Type1/2)
← 운영체제 (커널/프로세스/메모리)6-3. 전력/냉각 관점
AI Factory
← 액침냉각 (Liquid Immersion Cooling)
← Direct Liquid Cooling (DLC)
← 데이터센터 PUE/WUE 최적화
← 전력 배분 (UPS/PDU/발전기)
← 시설 관리 / 가용성 설계 (Tier I~IV)
← 물리적 보안 / 환경 제어