토픽 182 / 201·학습 패러다임과 특수 모델

StreamingLLM

Attention Sink 토큰을 활용하여 고정 크기 KV 캐시로 무한 길이 텍스트를 스트리밍 추론하는 기법

특징

동작원리

비교: 전체 캐시(O(n)/OOM 위험) vs Sliding Window(O(W)/품질 저하) vs StreamingLLM(O(N+W)/Sink 토큰 보존/무한 길이)

적용사례: 장시간 대화 챗봇(무한 길이), 실시간 문서 분석(스트리밍), 모니터링 AI(지속 추론)

연관: KV 캐시, Attention Sink, LLM 추론, Sliding Window Attention