토픽 165 / 172·고급 학습 기법

StreamingLLM

StreamingLLM

Attention Sink 토큰을 활용하여 고정 크기 KV 캐시로 무한 길이 텍스트를 스트리밍 추론하는 기법

특징

•윈도우 크기 고정: 메모리 사용량 일정, 시퀀스 길이와 무관
•Attention Sink: 초기 토큰에 Attention 집중하는 현상 활용(제거 시 품질 급락)
•재학습 불필요: 기존 모델에 즉시 적용 가능
•장시간 대화/스트리밍 서비스에 적합

동작원리

비교

목록 ←PagedAttention / vLLM 다음: KVQuant→