토픽 119 / 172·고급 학습 기법

Self-Supervised Learning (자기지도학습)

레이블 없는 대규모 데이터에서 모델 스스로 지도 신호(Supervision Signal)를 생성하여 사전학습(Pretraining)하는 학습 방법으로, 입력 데이터의 일부를 가리거나 변형해 복원·예측하며 BERT(Masked LM), GPT(Next Token), SimCLR(Contrastive)이 대표적

목적: 레이블 비용 절감, 대규모 사전학습, 일반화 능력 향상, 표현 학습(Representation Learning)

특징: 레이블 불필요, Pretext Task 설계, 대규모 비지도 데이터 활용, 전이학습 기반

구성요소

•Pretext Task(사전 태스크): 모델이 스스로 레이블 생성, 복원·예측·대조 학습
•대규모 비지도 데이터: 웹 텍스트(GPT), 이미지(ImageNet unlabeled), 비디오
•사전학습 모델: Encoder 학습, 일반적 표현(Feature) 획득
•Fine-tuning: 다운스트림 태스크(분류, 검출)에 전이

NLP Self-Supervised

•Masked Language Modeling(MLM): BERT, 단어 15% 마스킹, 복원 예측
•Next Sentence Prediction(NSP): BERT, 문장 순서 예측
•Causal Language Modeling(CLM): GPT, 다음 토큰 예측(Autoregressive)

Vision Self-Supervised

•Contrastive Learning: SimCLR, MoCo, 같은 이미지 변형은 유사, 다른 이미지는 멀게
•Masked Image Modeling: MAE(Masked Autoencoder), 이미지 패치 75% 마스킹, 복원
•Rotation Prediction: 이미지 회전 각도 예측
•Jigsaw Puzzle: 패치 순서 맞추기

Contrastive Learning

•SimCLR: 이미지 2개 증강(Augmentation), Positive Pair 유사, Negative Pair 멀게, InfoNCE Loss
•MoCo(Momentum Contrast): Queue 기반, Negative Sample 많이, Momentum Encoder
•BYOL: Negative Sample 불필요, Predictor + Target Network

장점: 레이블 불필요(비용 절감), 대규모 사전학습, 강력한 표현 학습, 전이학습 성능 향상

단점: Pretext Task 설계 중요, 계산 비용 높음(대규모 데이터), 다운스트림 태스크 의존

적용사례: BERT(NLP 사전학습), GPT(언어 생성), SimCLR(이미지 분류), MAE(Vision Transformer)

기술요소: MLM, CLM, Contrastive Learning(SimCLR, MoCo), MAE, Augmentation, InfoNCE Loss

비교: 지도학습(레이블 필요) vs Self-Supervised(레이블 불필요) vs 비지도학습(클러스터링)

연관: BERT, GPT, SimCLR, MoCo, MAE, Contrastive Learning, Transfer Learning, Pretraining

목록 ←Few-Shot Learning / Zero-Shot Learning 다음: Contrastive Learning (대조학습)→