토픽 164 / 172·고급 학습 기법
PagedAttention / vLLM
PagedAttention / vLLM
OS 가상메모리의 페이징 기법을 KV 캐시 관리에 적용하여 메모리 단편화를 제거하는 LLM 추론 엔진 기술
특징
- •비연속 메모리 블록 할당: KV 캐시를 고정 크기 블록 단위로 관리
- •메모리 낭비 제거: 기존 연속 할당 대비 ~60% 메모리 절약
- •동적 배치 스케줄링: Continuous Batching으로 GPU 활용률 극대화
- •vLLM 오픈소스: UC Berkeley 개발, 업계 표준 추론 엔진
동작원리
비교