토픽 107 / 172·엣지 AI와 모델 경량화

Speculative Decoding (투기적 디코딩)

작은 Draft 모델이 여러 토큰을 빠르게 생성(추측)하고, 큰 Target 모델이 이를 병렬로 검증(Verify)하여 LLM 추론 속도를 2~3배 향상시키는 기법

동작원리: Draft 모델이 K개 토큰 연속 생성 → Target 모델이 K개 토큰을 한 번의 Forward Pass로 동시 검증 → 일치하면 수용, 불일치 시 해당 지점부터 Target 모델이 재생성

핵심 장점: 품질 손실 없음(Target 모델 출력 분포와 수학적으로 동일), 추론 속도 2~3배 향상, 기존 모델 변경 불필요

Draft 모델 선택: 같은 계열 소형 모델(예: GPT-4 Mini), N-gram 모델, Self-Speculative(같은 모델의 초기 레이어)

비교: Speculative Decoding(품질 유지/Draft+Target/2~3배) vs 양자화(약간 품질 저하/단일 모델/2~4배) vs 지식 증류(품질 저하 가능/학습 필요)

연관: LLM 추론 최적화, 모델 경량화, 양자화, KV Cache, 배치 추론