토픽 50 / 172·Transformer와 언어모델

BERT (Bidirectional Encoder Representations from Transformers)

Bidirectional Encoder Representations from Transformers의 약자로, Transformer의 Encoder만 사용하여 양방향으로 문맥을 학습하는 사전학습 언어 모델로, MLM과 NSP 태스크로 학습 후 파인튜닝하여 다양한 NLP 문제 해결

특징: 양방향문맥학습, Encoder전용, 사전학습+파인튜닝, 마스크언어모델

사전학습 태스크

•MLM (Masked Language Model): 15% 토큰 마스킹, 빈칸 예측, 양방향 문맥
•NSP (Next Sentence Prediction): 문장 순서 예측(이후 제거됨, RoBERTa)

구조: Transformer Encoder 12층(BERT-Base) / 24층(BERT-Large), [CLS] 토큰(분류), [SEP] 토큰(구분)

파생모델: RoBERTa(NSP제거·대규모학습), ALBERT(파라미터공유·경량화), DistilBERT(증류·50%경량), ELECTRA(대체토큰탐지)

적용분야: 문서분류, 질의응답(Q&A), 개체명인식(NER), 감성분석, 문장유사도

장점: 양방향문맥, 높은성능, 전이학습용이

단점: 생성불가(Encoder만), 메모리많이사용, 파인튜닝필요

적용사례: 검색엔진(Google BERT), 챗봇이해, 문서분류, Q&A시스템

비교: BERT(양방향·이해) vs GPT(단방향·생성)

연관: Transformer, MLM, 사전학습, 파인튜닝, RoBERTa

목록 ←Flash Attention 다음: GPT (Generative Pre-trained Transformer)→