토픽 57 / 172·Transformer와 언어모델
토크나이제이션 (Tokenization)
토크나이제이션 (Tokenization)
텍스트를 모델이 처리할 수 있는 작은 단위(토큰)로 분할하는 전처리 과정으로, 단어·서브워드·문자 단위로 분할하며 NLP 모델의 입력 형태를 결정
목적: 텍스트→숫자변환, 어휘크기제어, 미등록어(OOV)처리
방법
- •단어 기반(Word): 공백·구두점 분리, 간단, 어휘크기거대·OOV문제
- •서브워드 기반(Subword): BPE·WordPiece·Unigram, 균형, OOV해결, 현대LLM표준
- •문자 기반(Character): 개별문자, OOV없음, 시퀀스길어짐
주요알고리즘
- •BPE (Byte Pair Encoding): 빈도높은쌍 병합, GPT
- •WordPiece: BPE변형, 확률기반, BERT
- •SentencePiece: 언어독립적, 공백도토큰, LLaMA
특수토큰: [CLS](분류), [SEP](구분), [PAD](패딩), [MASK](마스크), [UNK](미등록)
적용사례: BERT(WordPiece), GPT(BPE), LLaMA(SentencePiece)
비교: 단어(간단·OOV문제) vs 서브워드(균형·OOV해결) vs 문자(OOV없음·시퀀스김)
연관: NLP, BERT, GPT, BPE, WordPiece, 임베딩