Learning
토픽 51 / 172·Transformer와 언어모델

GPT (Generative Pre-trained Transformer)

GPT (Generative Pre-trained Transformer)

Generative Pre-trained Transformer의 약자로, Transformer의 Decoder만 사용하여 단방향(왼쪽→오른쪽)으로 다음 단어를 예측하는 자기회귀 언어 모델로, 대규모 텍스트 생성과 Few-shot Learning에 탁월

특징: 단방향생성, Decoder전용, 자기회귀(이전토큰→다음토큰), 대규모사전학습

발전과정

  • GPT-1 (2018): 1.17억 파라미터, Transformer Decoder, 사전학습+파인튜닝
  • GPT-2 (2019): 15억 파라미터, Zero-shot, 파인튜닝불필요
  • GPT-3 (2020): 1750억 파라미터, Few-shot Learning, In-Context Learning, 프롬프트
  • GPT-4 (2023): 멀티모달(텍스트+이미지), 고성능추론, 파라미터미공개

학습방식: 사전학습(다음토큰예측, Causal LM) → 프롬프트/파인튜닝

In-Context Learning: 프롬프트에 예시 제공, 파라미터업데이트없이 학습

장점: 강력한생성능력, Few-shot Learning, 범용성, 창의적텍스트

단점: 단방향(양방향이해약함), 환각(Hallucination), 계산비용막대

적용사례: 텍스트생성(GPT-3), 코드생성(Codex), 챗봇(ChatGPT), 번역·요약

비교: GPT(단방향·생성) vs BERT(양방향·이해)

연관: Transformer, Causal LM, Few-shot Learning, In-Context Learning, ChatGPT