Learning
토픽 2 / 36·Part 1. 핵심 트렌드

LLM 추론 최적화

2. LLM 추론 최적화

거대 모델을 실시간으로 서빙하기 위한 하드웨어-소프트웨어 공진화

2-1. 하드웨어 관점

NPU / AI 가속기 (Gaudi3, Trainium2)
  ← GPU 클러스터 (H100/B200, NVLink)
    ← Memory-Centric Computing (HBM3E, PIM)
      ← 캐시 메모리 / KV Cache 최적화
        ← 메모리 계층 (L1/L2/L3/DRAM)
          ← 컴퓨터구조 (파이프라인, 슈퍼스칼라)
            ← 논리 회로 / 디지털 시스템

2-2. 소프트웨어 관점

LLM 추론 서빙 (vLLM, TensorRT-LLM)
  ← KV Cache 최적화 (PagedAttention)
    ← 모델 양자화 (GPTQ, AWQ, GGUF)
      ← 모델 병렬화 (Tensor/Pipeline/Data)
        ← 분산 컴퓨팅 프레임워크
          ← 병렬처리 / 동기화 (MPI, NCCL)
            ← 운영체제 (프로세스/스레드/IPC)

2-3. 효율적 아키텍처 관점

On-Device AI (스마트폰/엣지 LLM)
  ← Small Language Model (Phi-4, Gemma)
    ← MoE (Mixture of Experts)
      ← SSM / Mamba (State Space Model)
        ← Transformer 변형 (Linear Attention)
          ← Attention 메커니즘
            ← Seq2Seq / RNN / LSTM
              ← 자연어처리(NLP) 기초