토픽 194 / 201·비교표
Transformer와 언어모델
RNN vs Transformer
| 항목 | RNN | Transformer |
|---|
| 처리 방식 | 순차 처리 | 병렬 처리 |
| 속도 | 느림 | 빠름 |
| 장거리 의존 | O(n) 경로 | O(1) 직접 연결 |
| 메모리 | O(n) | O(n²) |
| 학습 | 순차 → 느림 | 병렬 → 빠름 |
Transformer vs SSM/Mamba vs RWKV
| 항목 | Transformer | SSM/Mamba | RWKV |
|---|
| 복잡도 | O(n²) | O(n) | O(n) |
| 핵심 메커니즘 | 어텐션 | 상태공간 | RNN 변형/선형어텐션 |
| 학습 | 병렬 | 병렬 | 안정 |
| 긴 문맥 | 비효율 | 효율적 | 효율적 |
| 추론 | 느림 | 선형 추론 | 선형 |
BERT vs GPT
| 항목 | BERT | GPT |
|---|
| 구조 | Transformer Encoder | Transformer Decoder |
| 방향성 | 양방향 (Bidirectional) | 단방향 (Left-to-Right) |
| 사전학습 | MLM + NSP | 다음 토큰 예측 (CLM) |
| 강점 | 언어 이해 (분류, Q&A) | 텍스트 생성 |
| 파인튜닝 | 태스크별 필수 | 프롬프트/Few-shot |
| 대표 적용 | 검색, 분류, NER | 챗봇, 코드생성, 번역 |
Sinusoidal vs Learned vs RoPE vs ALiBi
| 항목 | Sinusoidal | Learned | RoPE | ALiBi |
|---|
| 학습 여부 | 고정 | 학습 가능 | 고정 (회전) | 바이어스 |
| 위치 유형 | 절대 위치 | 절대 위치 | 상대 위치 | 상대 위치 |
| 길이 외삽 | 가능 | 제한 (최대 길이) | 우수 | 우수 |
| 대표 모델 | 원본 Transformer | BERT, GPT | LLaMA (LLM 표준) | BLOOM |
MHA vs MQA vs GQA
| 항목 | MHA | MQA | GQA |
|---|
| KV 헤드 수 | Query 헤드와 동일 (h) | 1개 | 그룹 수 (g, 2~8) |
| 메모리 사용 | 최대 | 최소 | 중간 |
| 품질 | 최고 | 소폭 저하 가능 | MHA에 근접 |
| 위치 | 품질 우선 | 속도 우선 | 균형 (현재 주류) |
| 대표 모델 | GPT-3, BERT | PaLM, Falcon | Llama 2/3, Mistral |
표준 Attention vs Flash Attention vs Sparse Attention
| 항목 | 표준 Attention | Flash Attention | Sparse Attention |
|---|
| 메모리 | O(N²) | O(N) | O(N√N) |
| 속도 | 느림 | 2~4배 빠름 | 패턴 기반 |
| 구현 | 간단 | IO 최적화 (타일링) | 근사 (패턴) |
| 정확도 | 기준 | 수학적 등가 | 약간 손실 |
Scaling Law: Kaplan vs Chinchilla
| 항목 | Kaplan | Chinchilla |
|---|
| 핵심 주장 | 모델 크기 중시 | 균형 중시 |
| 전략 | 큰 모델 + 적은 데이터 | 적절 모델 + 충분 데이터 |
| 영향 | GPT-3 (175B) | Chinchilla (70B, 4배 데이터) |