토픽 88 / 172·컴퓨터 비전과 NLP

CLIP (Contrastive Language-Image Pre-training)

OpenAI가 개발한 대조학습 기반 이미지-텍스트 정렬 모델로, 4억 개 이미지-텍스트 쌍으로 학습하여 이미지와 텍스트를 동일 임베딩 공간에 매핑하며 Zero-Shot 이미지 분류·검색 가능

학습 방식: 이미지 인코더(ViT/ResNet)와 텍스트 인코더(Transformer)를 동시 학습, 대조학습(Contrastive Learning)으로 매칭 쌍은 가깝게/비매칭 쌍은 멀게, InfoNCE 손실 함수

Zero-Shot 분류: 클래스 레이블을 텍스트 프롬프트로 변환("a photo of a {class}"), 이미지 임베딩과 텍스트 임베딩 유사도 계산, Fine-tuning 없이 새 데이터셋 분류 가능

활용: 이미지 검색(텍스트→이미지), 이미지 분류(Zero-Shot), Stable Diffusion 텍스트 인코더, 멀티모달 LLM 비전 인코더, 이미지 캡셔닝

비교: CLIP(대조학습/이미지-텍스트 정렬/Zero-Shot) vs BLIP(생성+이해 통합/캡셔닝·VQA/Bootstrap) vs Flamingo(Few-Shot 멀티모달/인터리브 입력/대화형)

연관: 멀티모달 AI, 대조학습, Vision Transformer, Stable Diffusion, Zero-Shot