토픽 55 / 172·Transformer와 언어모델
Emergent Ability (창발 능력)
Emergent Ability (창발 능력)
소형 모델에서는 나타나지 않다가 모델 규모가 특정 임계점을 넘으면 갑자기 발현되는 능력으로, 학습 과정에서 명시적으로 훈련하지 않았음에도 출현하는 LLM 고유 현상
주요 창발 능력: Chain-of-Thought 추론(단계적 논리 전개), In-Context Learning(프롬프트 예시만으로 태스크 수행), 수학적 추론(산술·논리 문제 해결), 코드 생성(프로그래밍), 상식 추론, 다국어 번역
특징: 규모 임계점 존재(수십억~수천억 파라미터 경계), 비선형적 발현(점진적 향상이 아닌 갑작스러운 출현), 예측 어려움(사전에 어떤 능력이 발현될지 불명확)
논쟁: 평가 메트릭 선택에 따른 착시 가능성(연속 메트릭 사용 시 점진적 향상으로 관측), 진정한 창발 vs 측정 아티팩트 논쟁
비교: Small LM(제한적 능력/특정 태스크/Fine-tuning 필수) vs Large LM(창발 능력/범용성/Few-shot·Zero-shot 가능)
연관: LLM, Scaling Law, CoT, In-Context Learning, Few-shot Learning