토픽 57 / 172·Transformer와 언어모델

토크나이제이션 (Tokenization)

텍스트를 모델이 처리할 수 있는 작은 단위(토큰)로 분할하는 전처리 과정으로, 단어·서브워드·문자 단위로 분할하며 NLP 모델의 입력 형태를 결정

목적: 텍스트→숫자변환, 어휘크기제어, 미등록어(OOV)처리

방법

주요알고리즘

특수토큰: [CLS](분류), [SEP](구분), [PAD](패딩), [MASK](마스크), [UNK](미등록)

적용사례: BERT(WordPiece), GPT(BPE), LLaMA(SentencePiece)

비교: 단어(간단·OOV문제) vs 서브워드(균형·OOV해결) vs 문자(OOV없음·시퀀스김)

연관: NLP, BERT, GPT, BPE, WordPiece, 임베딩