Learning
토픽 194 / 201·비교표

Transformer와 언어모델

RNN vs Transformer

항목RNNTransformer
처리 방식순차 처리병렬 처리
속도느림빠름
장거리 의존O(n) 경로O(1) 직접 연결
메모리O(n)O(n²)
학습순차 → 느림병렬 → 빠름

Transformer vs SSM/Mamba vs RWKV

항목TransformerSSM/MambaRWKV
복잡도O(n²)O(n)O(n)
핵심 메커니즘어텐션상태공간RNN 변형/선형어텐션
학습병렬병렬안정
긴 문맥비효율효율적효율적
추론느림선형 추론선형

BERT vs GPT

항목BERTGPT
구조Transformer EncoderTransformer Decoder
방향성양방향 (Bidirectional)단방향 (Left-to-Right)
사전학습MLM + NSP다음 토큰 예측 (CLM)
강점언어 이해 (분류, Q&A)텍스트 생성
파인튜닝태스크별 필수프롬프트/Few-shot
대표 적용검색, 분류, NER챗봇, 코드생성, 번역

Sinusoidal vs Learned vs RoPE vs ALiBi

항목SinusoidalLearnedRoPEALiBi
학습 여부고정학습 가능고정 (회전)바이어스
위치 유형절대 위치절대 위치상대 위치상대 위치
길이 외삽가능제한 (최대 길이)우수우수
대표 모델원본 TransformerBERT, GPTLLaMA (LLM 표준)BLOOM

MHA vs MQA vs GQA

항목MHAMQAGQA
KV 헤드 수Query 헤드와 동일 (h)1개그룹 수 (g, 2~8)
메모리 사용최대최소중간
품질최고소폭 저하 가능MHA에 근접
위치품질 우선속도 우선균형 (현재 주류)
대표 모델GPT-3, BERTPaLM, FalconLlama 2/3, Mistral

표준 Attention vs Flash Attention vs Sparse Attention

항목표준 AttentionFlash AttentionSparse Attention
메모리O(N²)O(N)O(N√N)
속도느림2~4배 빠름패턴 기반
구현간단IO 최적화 (타일링)근사 (패턴)
정확도기준수학적 등가약간 손실

Scaling Law: Kaplan vs Chinchilla

항목KaplanChinchilla
핵심 주장모델 크기 중시균형 중시
전략큰 모델 + 적은 데이터적절 모델 + 충분 데이터
영향GPT-3 (175B)Chinchilla (70B, 4배 데이터)