토픽 2 / 36·Part 1. 핵심 트렌드
LLM 추론 최적화
2. LLM 추론 최적화
거대 모델을 실시간으로 서빙하기 위한 하드웨어-소프트웨어 공진화
2-1. 하드웨어 관점
NPU / AI 가속기 (Gaudi3, Trainium2)
← GPU 클러스터 (H100/B200, NVLink)
← Memory-Centric Computing (HBM3E, PIM)
← 캐시 메모리 / KV Cache 최적화
← 메모리 계층 (L1/L2/L3/DRAM)
← 컴퓨터구조 (파이프라인, 슈퍼스칼라)
← 논리 회로 / 디지털 시스템2-2. 소프트웨어 관점
LLM 추론 서빙 (vLLM, TensorRT-LLM)
← KV Cache 최적화 (PagedAttention)
← 모델 양자화 (GPTQ, AWQ, GGUF)
← 모델 병렬화 (Tensor/Pipeline/Data)
← 분산 컴퓨팅 프레임워크
← 병렬처리 / 동기화 (MPI, NCCL)
← 운영체제 (프로세스/스레드/IPC)2-3. 효율적 아키텍처 관점
On-Device AI (스마트폰/엣지 LLM)
← Small Language Model (Phi-4, Gemma)
← MoE (Mixture of Experts)
← SSM / Mamba (State Space Model)
← Transformer 변형 (Linear Attention)
← Attention 메커니즘
← Seq2Seq / RNN / LSTM
← 자연어처리(NLP) 기초