토픽 164 / 172·고급 학습 기법

PagedAttention / vLLM

PagedAttention / vLLM

OS 가상메모리의 페이징 기법을 KV 캐시 관리에 적용하여 메모리 단편화를 제거하는 LLM 추론 엔진 기술

특징

•비연속 메모리 블록 할당: KV 캐시를 고정 크기 블록 단위로 관리
•메모리 낭비 제거: 기존 연속 할당 대비 ~60% 메모리 절약
•동적 배치 스케줄링: Continuous Batching으로 GPU 활용률 극대화
•vLLM 오픈소스: UC Berkeley 개발, 업계 표준 추론 엔진

동작원리

비교

목록 ←GQA (Grouped-Query Attention)다음: StreamingLLM→