Self-Supervised Learning (자기지도학습)
Self-Supervised Learning (자기지도학습)
레이블 없는 대규모 데이터에서 모델 스스로 지도 신호(Supervision Signal)를 생성하여 사전학습(Pretraining)하는 학습 방법으로, 입력 데이터의 일부를 가리거나 변형해 복원·예측하며 BERT(Masked LM), GPT(Next Token), SimCLR(Contrastive)이 대표적
목적: 레이블 비용 절감, 대규모 사전학습, 일반화 능력 향상, 표현 학습(Representation Learning)
특징: 레이블 불필요, Pretext Task 설계, 대규모 비지도 데이터 활용, 전이학습 기반
구성요소
- •Pretext Task(사전 태스크): 모델이 스스로 레이블 생성, 복원·예측·대조 학습
- •대규모 비지도 데이터: 웹 텍스트(GPT), 이미지(ImageNet unlabeled), 비디오
- •사전학습 모델: Encoder 학습, 일반적 표현(Feature) 획득
- •Fine-tuning: 다운스트림 태스크(분류, 검출)에 전이
NLP Self-Supervised
- •Masked Language Modeling(MLM): BERT, 단어 15% 마스킹, 복원 예측
- •Next Sentence Prediction(NSP): BERT, 문장 순서 예측
- •Causal Language Modeling(CLM): GPT, 다음 토큰 예측(Autoregressive)
Vision Self-Supervised
- •Contrastive Learning: SimCLR, MoCo, 같은 이미지 변형은 유사, 다른 이미지는 멀게
- •Masked Image Modeling: MAE(Masked Autoencoder), 이미지 패치 75% 마스킹, 복원
- •Rotation Prediction: 이미지 회전 각도 예측
- •Jigsaw Puzzle: 패치 순서 맞추기
Contrastive Learning
- •SimCLR: 이미지 2개 증강(Augmentation), Positive Pair 유사, Negative Pair 멀게, InfoNCE Loss
- •MoCo(Momentum Contrast): Queue 기반, Negative Sample 많이, Momentum Encoder
- •BYOL: Negative Sample 불필요, Predictor + Target Network
장점: 레이블 불필요(비용 절감), 대규모 사전학습, 강력한 표현 학습, 전이학습 성능 향상
단점: Pretext Task 설계 중요, 계산 비용 높음(대규모 데이터), 다운스트림 태스크 의존
적용사례: BERT(NLP 사전학습), GPT(언어 생성), SimCLR(이미지 분류), MAE(Vision Transformer)
기술요소: MLM, CLM, Contrastive Learning(SimCLR, MoCo), MAE, Augmentation, InfoNCE Loss
비교: 지도학습(레이블 필요) vs Self-Supervised(레이블 불필요) vs 비지도학습(클러스터링)
연관: BERT, GPT, SimCLR, MoCo, MAE, Contrastive Learning, Transfer Learning, Pretraining