Learning
토픽 57 / 172·Transformer와 언어모델

토크나이제이션 (Tokenization)

토크나이제이션 (Tokenization)

텍스트를 모델이 처리할 수 있는 작은 단위(토큰)로 분할하는 전처리 과정으로, 단어·서브워드·문자 단위로 분할하며 NLP 모델의 입력 형태를 결정

목적: 텍스트→숫자변환, 어휘크기제어, 미등록어(OOV)처리

방법

  • 단어 기반(Word): 공백·구두점 분리, 간단, 어휘크기거대·OOV문제
  • 서브워드 기반(Subword): BPE·WordPiece·Unigram, 균형, OOV해결, 현대LLM표준
  • 문자 기반(Character): 개별문자, OOV없음, 시퀀스길어짐

주요알고리즘

  • BPE (Byte Pair Encoding): 빈도높은쌍 병합, GPT
  • WordPiece: BPE변형, 확률기반, BERT
  • SentencePiece: 언어독립적, 공백도토큰, LLaMA

특수토큰: [CLS](분류), [SEP](구분), [PAD](패딩), [MASK](마스크), [UNK](미등록)

적용사례: BERT(WordPiece), GPT(BPE), LLaMA(SentencePiece)

비교: 단어(간단·OOV문제) vs 서브워드(균형·OOV해결) vs 문자(OOV없음·시퀀스김)

연관: NLP, BERT, GPT, BPE, WordPiece, 임베딩