토픽 50 / 172·Transformer와 언어모델
BERT (Bidirectional Encoder Representations from Transformers)
BERT (Bidirectional Encoder Representations from Transformers)
Bidirectional Encoder Representations from Transformers의 약자로, Transformer의 Encoder만 사용하여 양방향으로 문맥을 학습하는 사전학습 언어 모델로, MLM과 NSP 태스크로 학습 후 파인튜닝하여 다양한 NLP 문제 해결
특징: 양방향문맥학습, Encoder전용, 사전학습+파인튜닝, 마스크언어모델
사전학습 태스크
- •MLM (Masked Language Model): 15% 토큰 마스킹, 빈칸 예측, 양방향 문맥
- •NSP (Next Sentence Prediction): 문장 순서 예측(이후 제거됨, RoBERTa)
구조: Transformer Encoder 12층(BERT-Base) / 24층(BERT-Large), [CLS] 토큰(분류), [SEP] 토큰(구분)
파생모델: RoBERTa(NSP제거·대규모학습), ALBERT(파라미터공유·경량화), DistilBERT(증류·50%경량), ELECTRA(대체토큰탐지)
적용분야: 문서분류, 질의응답(Q&A), 개체명인식(NER), 감성분석, 문장유사도
장점: 양방향문맥, 높은성능, 전이학습용이
단점: 생성불가(Encoder만), 메모리많이사용, 파인튜닝필요
적용사례: 검색엔진(Google BERT), 챗봇이해, 문서분류, Q&A시스템
비교: BERT(양방향·이해) vs GPT(단방향·생성)
연관: Transformer, MLM, 사전학습, 파인튜닝, RoBERTa