Learning
토픽 6 / 36·Part 1. 핵심 트렌드

GPU/AI 인프라

6. GPU/AI 인프라

AI 훈련/추론을 위한 대규모 GPU 클러스터와 전용 인프라

6-1. 하드웨어/데이터센터 관점

AI Factory (NVIDIA GB200 NVL72 랙)
  ← GPU 클러스터 (InfiniBand/RoCE 인터커넥트)
    ← HBM3E / CXL 메모리 확장
      ← NVLink / PCIe 6.0
        ← GPU 아키텍처 (CUDA 코어, 텐서 코어)
          ← 병렬 처리 / SIMD
            ← 컴퓨터구조 (프로세서/메모리/버스)
              ← 디지털 논리 / 불 대수

6-2. 소프트웨어 스택 관점

AI 인프라 관리 (Kubernetes + GPU Operator)
  ← MLOps / LLMOps (모델 라이프사이클)
    ← 분산 훈련 프레임워크 (DeepSpeed, Megatron)
      ← 컨테이너 오케스트레이션 (K8s)
        ← 컨테이너 (Docker, OCI)
          ← 가상화 (하이퍼바이저 Type1/2)
            ← 운영체제 (커널/프로세스/메모리)

6-3. 전력/냉각 관점

AI Factory
  ← 액침냉각 (Liquid Immersion Cooling)
    ← Direct Liquid Cooling (DLC)
      ← 데이터센터 PUE/WUE 최적화
        ← 전력 배분 (UPS/PDU/발전기)
          ← 시설 관리 / 가용성 설계 (Tier I~IV)
            ← 물리적 보안 / 환경 제어