토픽 52 / 172·Transformer와 언어모델
LLM (Large Language Model)
LLM (Large Language Model)
대규모 텍스트 데이터로 사전학습된 수십억~수천억 파라미터의 초거대 언어 모델로, 범용 언어 이해·생성 능력을 갖추며 프롬프트만으로 다양한 작업 수행이 가능한 파운데이션 모델
특징: 수억~수천억파라미터, 대규모데이터학습, 범용성, Emergent Ability(창발능력), In-Context Learning
대표모델
- •GPT 시리즈: GPT-3(1750억), GPT-4(멀티모달)
- •PaLM/Gemini (Google): PaLM(5400억), Gemini(멀티모달)
- •LLaMA (Meta): 70억~650억, 오픈소스
- •Claude (Anthropic): Constitutional AI, 안전성강화
핵심능력
- •Few-shot Learning: 예시 몇 개로 학습
- •Zero-shot Learning: 예시 없이 수행
- •Chain-of-Thought: 단계적 추론
- •In-Context Learning: 문맥에서 학습
학습단계: 사전학습(Next Token Prediction) → 지시학습(Instruction Tuning) → RLHF(인간피드백강화학습)
적용분야: 텍스트생성, 대화(챗봇), 코드생성, 번역, 요약, 질의응답, 추론
도전과제: 환각(Hallucination), 편향(Bias), 계산비용, 해석가능성, 저작권
적용사례: ChatGPT(대화), Copilot(코드), Bard(검색), Claude(안전한대화)
비교: 소형모델(특정작업) vs LLM(범용)
연관: GPT, Transformer, 사전학습, RLHF, 프롬프트엔지니어링, Few-shot Learning