토픽 194 / 201·비교표

Transformer와 언어모델

RNN vs Transformer

항목	RNN	Transformer
처리 방식	순차 처리	병렬 처리
속도	느림	빠름
장거리 의존	O(n) 경로	O(1) 직접 연결
메모리	O(n)	O(n²)
학습	순차 → 느림	병렬 → 빠름

Transformer vs SSM/Mamba vs RWKV

항목	Transformer	SSM/Mamba	RWKV
복잡도	O(n²)	O(n)	O(n)
핵심 메커니즘	어텐션	상태공간	RNN 변형/선형어텐션
학습	병렬	병렬	안정
긴 문맥	비효율	효율적	효율적
추론	느림	선형 추론	선형

BERT vs GPT

항목	BERT	GPT
구조	Transformer Encoder	Transformer Decoder
방향성	양방향 (Bidirectional)	단방향 (Left-to-Right)
사전학습	MLM + NSP	다음 토큰 예측 (CLM)
강점	언어 이해 (분류, Q&A)	텍스트 생성
파인튜닝	태스크별 필수	프롬프트/Few-shot
대표 적용	검색, 분류, NER	챗봇, 코드생성, 번역

Sinusoidal vs Learned vs RoPE vs ALiBi

항목	Sinusoidal	Learned	RoPE	ALiBi
학습 여부	고정	학습 가능	고정 (회전)	바이어스
위치 유형	절대 위치	절대 위치	상대 위치	상대 위치
길이 외삽	가능	제한 (최대 길이)	우수	우수
대표 모델	원본 Transformer	BERT, GPT	LLaMA (LLM 표준)	BLOOM

MHA vs MQA vs GQA

항목	MHA	MQA	GQA
KV 헤드 수	Query 헤드와 동일 (h)	1개	그룹 수 (g, 2~8)
메모리 사용	최대	최소	중간
품질	최고	소폭 저하 가능	MHA에 근접
위치	품질 우선	속도 우선	균형 (현재 주류)
대표 모델	GPT-3, BERT	PaLM, Falcon	Llama 2/3, Mistral

표준 Attention vs Flash Attention vs Sparse Attention

항목	표준 Attention	Flash Attention	Sparse Attention
메모리	O(N²)	O(N)	O(N√N)
속도	느림	2~4배 빠름	패턴 기반
구현	간단	IO 최적화 (타일링)	근사 (패턴)
정확도	기준	수학적 등가	약간 손실

Scaling Law: Kaplan vs Chinchilla

항목	Kaplan	Chinchilla
핵심 주장	모델 크기 중시	균형 중시
전략	큰 모델 + 적은 데이터	적절 모델 + 충분 데이터
영향	GPT-3 (175B)	Chinchilla (70B, 4배 데이터)

목록 ←딥러닝 다음: 생성형 AI와 LLM 활용→