토픽 184 / 201·학습 패러다임과 특수 모델
QJL (Quantized Johnson-Lindenstrauss Transform)
QJL (Quantized Johnson-Lindenstrauss Transform)
Johnson-Lindenstrauss 랜덤 프로젝션을 양자화에 적용하여 KV 캐시를 차원 축소 압축하는 기법
특징
- •이론적 근거: JL Lemma — 랜덤 프로젝션 시 거리 보존 보장
- •학습 불필요: 랜덤 프로젝션 행렬로 즉시 적용
- •Key 캐시 특화: Key 벡터의 내적 관계 보존에 최적화
- •직교적 적용: 기존 값 양자화(KVQuant 등)와 병행 가능
동작원리: Key 벡터 × 랜덤 프로젝션 행렬 → 저차원 압축 Key → 1비트 양자화 → Attention 계산 시 근사 내적
비교: KVQuant(값 양자화/캘리브레이션) vs QJL(차원 축소/JL Lemma/학습 불필요) vs TurboQuant(혼합정밀도/감도 분석)
적용사례: Key 캐시 압축(LLM 추론), 긴 컨텍스트 메모리 절감, 기존 KVQuant와 병행 적용
연관: KV 캐시 최적화, JL Lemma, 양자화, KVQuant, LLM 추론