토픽 89 / 172·컴퓨터 비전과 NLP

Vision Transformer (ViT)

이미지를 고정 크기 패치로 분할하여 토큰으로 취급하고 Transformer 인코더로 처리하는 비전 아키텍처로, CNN 없이 Self-Attention만으로 이미지 분류에서 SOTA 달성

동작: 이미지(224x224) → 패치 분할(16x16=196개 패치) → 선형 임베딩(패치→벡터) → 위치 임베딩 추가 + [CLS] 토큰 → Transformer Encoder(Self-Attention) → [CLS] 토큰으로 분류

특징: 글로벌 수용 영역(첫 층부터 전체 이미지 관계 학습/CNN은 점진적), 대규모 데이터에서 CNN 능가(JFT-300M+), 적은 데이터에서는 CNN이 유리(귀납 편향 부재), 멀티모달 확장 용이(CLIP/BLIP 비전 인코더)

변형: DeiT(데이터 효율/증류 토큰/ImageNet만으로 학습), Swin Transformer(계층적 윈도우/객체 탐지/세그멘테이션), BEiT(마스크 이미지 모델링/자기지도학습)

비교: ViT(Self-Attention/글로벌/대규모 데이터 우수/패치 기반) vs CNN(합성곱/지역 패턴/적은 데이터 우수/귀납 편향) vs Hybrid(CNN 특징 추출+Transformer/장점 결합)

연관: Transformer, CNN, CLIP, 멀티모달 AI, Self-Attention, 이미지 분류