토픽 181 / 201·학습 패러다임과 특수 모델

PagedAttention / vLLM

OS 가상메모리의 페이징 기법을 KV 캐시 관리에 적용하여 메모리 단편화를 제거하는 LLM 추론 엔진 기술

특징

동작원리

비교: 기존 연속 할당(최대 길이 예약/~40% 활용/단편화) vs PagedAttention(블록 단위 동적/~95% 활용/CoW 지원)

적용사례: LLM 프로덕션 서빙(vLLM), 멀티유저 동시 처리(동적 배칭), 긴 컨텍스트 서빙(메모리 효율)

연관: KV 캐시, LLM 추론, Continuous Batching, 모델 서빙