Learning
토픽 127 / 172·고급 학습 기법

LLM Context Window 관리 (LLM Context Window Management)

LLM Context Window 관리 (LLM Context Window Management)

Large Language Model이 한 번에 처리할 수 있는 토큰 수(Context Length)의 제약 내에서 효율적으로 정보를 관리하고, 긴 문서나 대화를 처리하기 위한 기법으로, Chunking, Summarization, Retrieval 등의 전략을 활용

목적: 긴 문서 처리, 대화 히스토리 관리, 토큰 비용 최적화, 정보 손실 최소화, 응답 품질 유지

특징: 토큰 제한(4K~128K+), 입력+출력 합산, 비용과 연계, 모델별 차이

Context Window 크기: GPT-3.5(4K/16K), GPT-4(8K/32K/128K), Claude(100K/200K), Gemini(32K/1M)

관리 전략

  • Chunking: 문서를 작은 조각으로 분할, 의미 단위(문단, 문장), 오버랩 적용
  • Sliding Window: 최근 N 토큰만 유지, 오래된 컨텍스트 제거
  • Summarization: 이전 대화/문서 요약, 압축된 컨텍스트 유지
  • RAG(Retrieval-Augmented Generation): 관련 청크만 검색하여 주입
  • Hierarchical Summarization: 계층적 요약, Map-Reduce 패턴

Long-Context 기술

  • RoPE(Rotary Position Embedding): 상대적 위치 인코딩, 외삽 가능
  • ALiBi(Attention with Linear Biases): 위치 페널티, 길이 일반화
  • Sliding Window Attention: Longformer, 로컬+글로벌 어텐션
  • YaRN: RoPE 확장, 컨텍스트 길이 스케일링

비용 최적화: 불필요한 토큰 제거, 프롬프트 압축, 캐싱 활용

장점: 긴 문서 처리, 대화 연속성, 비용 관리, 유연한 적용

단점: 정보 손실 가능, 복잡한 구현, 추가 처리 비용, 품질 트레이드오프

적용사례: 문서 QA, 긴 대화 챗봇, 코드 분석, 법률 문서 검토

비교: Chunking(분할) vs Summarization(요약) vs RAG(검색) vs Long-Context Model(긴 컨텍스트)

연관: RAG, 토큰, 프롬프트 엔지니어링, LLM 비용, Embedding