토픽 127 / 172·고급 학습 기법
LLM Context Window 관리 (LLM Context Window Management)
LLM Context Window 관리 (LLM Context Window Management)
Large Language Model이 한 번에 처리할 수 있는 토큰 수(Context Length)의 제약 내에서 효율적으로 정보를 관리하고, 긴 문서나 대화를 처리하기 위한 기법으로, Chunking, Summarization, Retrieval 등의 전략을 활용
목적: 긴 문서 처리, 대화 히스토리 관리, 토큰 비용 최적화, 정보 손실 최소화, 응답 품질 유지
특징: 토큰 제한(4K~128K+), 입력+출력 합산, 비용과 연계, 모델별 차이
Context Window 크기: GPT-3.5(4K/16K), GPT-4(8K/32K/128K), Claude(100K/200K), Gemini(32K/1M)
관리 전략
- •Chunking: 문서를 작은 조각으로 분할, 의미 단위(문단, 문장), 오버랩 적용
- •Sliding Window: 최근 N 토큰만 유지, 오래된 컨텍스트 제거
- •Summarization: 이전 대화/문서 요약, 압축된 컨텍스트 유지
- •RAG(Retrieval-Augmented Generation): 관련 청크만 검색하여 주입
- •Hierarchical Summarization: 계층적 요약, Map-Reduce 패턴
Long-Context 기술
- •RoPE(Rotary Position Embedding): 상대적 위치 인코딩, 외삽 가능
- •ALiBi(Attention with Linear Biases): 위치 페널티, 길이 일반화
- •Sliding Window Attention: Longformer, 로컬+글로벌 어텐션
- •YaRN: RoPE 확장, 컨텍스트 길이 스케일링
비용 최적화: 불필요한 토큰 제거, 프롬프트 압축, 캐싱 활용
장점: 긴 문서 처리, 대화 연속성, 비용 관리, 유연한 적용
단점: 정보 손실 가능, 복잡한 구현, 추가 처리 비용, 품질 트레이드오프
적용사례: 문서 QA, 긴 대화 챗봇, 코드 분석, 법률 문서 검토
비교: Chunking(분할) vs Summarization(요약) vs RAG(검색) vs Long-Context Model(긴 컨텍스트)
연관: RAG, 토큰, 프롬프트 엔지니어링, LLM 비용, Embedding