토픽 53 / 172·Transformer와 언어모델

Test-Time Compute / Inference Scaling (추론 시간 확장)

모델 크기 확장 대신 추론 시간에 더 많은 연산을 투입하여 성능을 향상시키는 패러다임으로, 동일 모델로 추론 비용을 조절하여 품질-비용 트레이드오프 제어

특징: Chain-of-Thought(CoT), Tree-of-Thought(ToT), 자기 검증(Self-Verification), 반복 추론, 탐색 기반 추론, 추론 시 컴퓨트 동적 할당

동작원리

주요 기법: Best-of-N(다수 생성 후 최선 선택), Self-Consistency(다수결), Verifier(검증 모델), Process Reward Model(단계별 보상), Monte Carlo Tree Search(MCTS 탐색)

비교: Pre-training Scaling(학습 시/모델·데이터 확대/고정 비용) vs Fine-tuning Scaling(적응 시/태스크 특화/중간 비용) vs Test-Time Scaling(추론 시/연산 확대/동적 비용)

연관: LLM, Scaling Law, CoT, 프롬프트 엔지니어링, 강화학습