토픽 181 / 201·학습 패러다임과 특수 모델
PagedAttention / vLLM
PagedAttention / vLLM
OS 가상메모리의 페이징 기법을 KV 캐시 관리에 적용하여 메모리 단편화를 제거하는 LLM 추론 엔진 기술
특징
- •비연속 메모리 블록 할당: KV 캐시를 고정 크기 블록 단위로 관리
- •메모리 낭비 제거: 기존 연속 할당 대비 ~60% 메모리 절약
- •동적 배치 스케줄링: Continuous Batching으로 GPU 활용률 극대화
- •vLLM 오픈소스: UC Berkeley 개발, 업계 표준 추론 엔진
동작원리
비교: 기존 연속 할당(최대 길이 예약/~40% 활용/단편화) vs PagedAttention(블록 단위 동적/~95% 활용/CoW 지원)
적용사례: LLM 프로덕션 서빙(vLLM), 멀티유저 동시 처리(동적 배칭), 긴 컨텍스트 서빙(메모리 효율)
연관: KV 캐시, LLM 추론, Continuous Batching, 모델 서빙