Learning
토픽 182 / 201·학습 패러다임과 특수 모델

StreamingLLM

StreamingLLM

Attention Sink 토큰을 활용하여 고정 크기 KV 캐시로 무한 길이 텍스트를 스트리밍 추론하는 기법

특징

  • 윈도우 크기 고정: 메모리 사용량 일정, 시퀀스 길이와 무관
  • Attention Sink: 초기 토큰에 Attention 집중하는 현상 활용(제거 시 품질 급락)
  • 재학습 불필요: 기존 모델에 즉시 적용 가능
  • 장시간 대화/스트리밍 서비스에 적합

동작원리

비교: 전체 캐시(O(n)/OOM 위험) vs Sliding Window(O(W)/품질 저하) vs StreamingLLM(O(N+W)/Sink 토큰 보존/무한 길이)

적용사례: 장시간 대화 챗봇(무한 길이), 실시간 문서 분석(스트리밍), 모니터링 AI(지속 추론)

연관: KV 캐시, Attention Sink, LLM 추론, Sliding Window Attention