토픽 54 / 172·Transformer와 언어모델

Scaling Law

LLM의 성능(Loss)이 모델 파라미터 수(N), 학습 데이터 크기(D), 컴퓨트 예산(C)에 대해 멱법칙(Power Law) 관계를 따른다는 경험적 법칙으로, 최적 자원 배분 전략의 이론적 근거

Kaplan Scaling Law(OpenAI 2020): Loss ∝ N^(-0.076), 모델 크기가 가장 중요, 데이터보다 파라미터에 컴퓨트 투자 권장

Chinchilla Optimal(DeepMind 2022): 파라미터 수와 학습 토큰 수를 1:20 비율로 균형 배분이 최적, 기존 LLM은 과대 파라미터/과소 데이터(Under-trained), Chinchilla 70B(1.4T 토큰) > Gopher 280B(300B 토큰)

시사점: 무조건 모델 크기 키우기보다 데이터 품질·양과 균형 중요, 컴퓨트 예산 대비 최적 모델·데이터 크기 산출 가능, 학습 전 성능 예측 가능

비교: Kaplan(모델 크기 중시/큰 모델 적은 데이터) vs Chinchilla(균형 중시/적절 모델 충분 데이터)

연관: LLM, 사전학습, Chinchilla, 컴퓨트 최적화

목록 ←Test-Time Compute / Inference Scaling (추론 시간 확장)다음: Emergent Ability (창발 능력)→