토픽 200 / 201·비교표
모델 최적화, 경량화, 서빙
Dense Model vs MoE
| 항목 | Dense Model | MoE (Mixture of Experts) |
|---|---|---|
| 활성화 | 모든 파라미터 활성 | 희소 활성 (Top-K만) |
| 파라미터 | 전부 연산 | 많지만 일부만 계산 |
| 효율성 | 낮음 | 높음 (조건부 계산) |
| 대표 | GPT-3, BERT | Mixtral 8x7B, Switch Transformer |
오픈소스 AI vs 폐쇄형 AI
| 항목 | 오픈소스 AI | 폐쇄형 AI |
|---|---|---|
| 투명성 | 가중치/코드 공개 | API만 제공 |
| 비용 | 무료 (인프라 필요) | API 과금 |
| 커스터마이징 | 자유 (파인튜닝) | 제한적 |
| 성능 | 높지만 폐쇄형 대비 낮음 | 최고 성능 |
| 지원 | 커뮤니티 | 공식 지원 |
| 대표 | LLaMA, Mistral, Stable Diffusion | GPT-4, Claude, Gemini |
Word2Vec vs BERT 임베딩 vs OpenAI 임베딩
| 항목 | Word2Vec | BERT | OpenAI |
|---|---|---|---|
| 유형 | 단어 수준 | 문맥 의존 | 범용 문장 |
| 속도 | 빠름 | 무거움 | API 의존 |
| 문맥 반영 | 정적 (동일 단어 동일 벡터) | 동적 (문맥별 다른 벡터) | 동적 |
| 적용 | 유사도, 기본 NLP | NLP SOTA | RAG, 검색 |
기존 연속 할당 vs PagedAttention
| 항목 | 기존 연속 할당 | PagedAttention |
|---|---|---|
| 메모리 할당 | 최대 길이 사전 예약 | 필요 시 블록 단위 할당 |
| 단편화 | 내부 단편화 심각 | 단편화 제거 |
| 메모리 효율 | ~40% 활용 | ~95% 활용 |
| 배치 크기 | 메모리 한계로 제한 | 동적 확장 가능 |
| Copy-on-Write | 미지원 | 지원(Beam Search 효율화) |
전체 캐시 vs Sliding Window vs StreamingLLM
| 항목 | 전체 캐시 | Sliding Window | StreamingLLM |
|---|---|---|---|
| 메모리 | O(n) 무한 증가 | O(W) 고정 | O(N+W) 고정 |
| 무한 길이 | 불가(OOM) | 가능(품질 저하) | 가능(품질 유지) |
| Sink 토큰 | 해당 없음 | 미보존 | 보존 |
| 품질 | 최고 | 급격 저하 | 안정적 유지 |
FP16 vs INT4 vs INT2 KV 캐시
| 항목 | FP16 KV | INT4 KV | INT2 KV |
|---|---|---|---|
| 메모리 | 기준(1×) | ~0.25× | ~0.125× |
| 품질 저하 | 없음 | 미미 | 소폭 |
| 컨텍스트 확장 | 기준 | ~4배 | ~8배 |
| 적용 난이도 | 없음 | 보통 | Residual 양자화 필요 |
KVQuant vs QJL vs TurboQuant
| 항목 | KVQuant | QJL | TurboQuant |
|---|---|---|---|
| 압축 방식 | 값 양자화(비트 축소) | 차원 축소(프로젝션) | 혼합정밀도 양자화 |
| 이론 기반 | 통계적 분포 | JL Lemma | 레이어 감도 분석 |
| 학습 필요 | 캘리브레이션 필요 | 불필요 | 감도 분석 필요 |
| 병행 적용 | QJL과 병행 가능 | KVQuant와 병행 가능 | 독립 적용 |
균일 양자화 vs TurboQuant
| 항목 | 균일 양자화(INT4) | TurboQuant(혼합) |
|---|---|---|
| 비트폭 | 모든 레이어 동일 | 레이어별 INT1~4 가변 |
| 평균 비트 | 4비트 | 2~3비트 |
| 품질 | 양호 | 동등 이상 |
| 메모리 절감 | 4× | 5~8× |
| 추가 비용 | 없음 | 감도 분석 1회 |
학습 병렬화 전략 (DP vs TP vs PP vs ZeRO)
| 항목 | DP | TP | PP | ZeRO/FSDP |
|---|---|---|---|---|
| 분할 대상 | 데이터 | 레이어 내 텐서 | 레이어(스테이지) | 옵티마이저/기울기/파라미터 |
| 통신량 | AllReduce(기울기) | AllReduce(활성화) | P2P(스테이지 간) | AllGather/ReduceScatter |
| 메모리 효율 | 낮음(모델 복제) | 높음 | 높음 | 최고(중복 제거) |
| GPU 활용 | 높음 | 높음 | 버블 발생 | 높음 |
| 대표 프레임워크 | PyTorch DDP | Megatron-LM | GPipe, PipeDream | DeepSpeed, PyTorch FSDP |
기존 ML vs 양자 ML
| 구분 | 기존 ML | 양자 ML |
|---|---|---|
| 연산 단위 | 비트 (0 or 1) | 큐비트 (중첩 상태) |
| 병렬성 | 순차/GPU 병렬 | 양자 중첩 고유 병렬 |
| 특징 공간 | 유한 차원 | 지수적 차원 가능 |
| 하드웨어 | CPU/GPU/TPU | 양자 프로세서 (NISQ) |
| 성숙도 | 상용화 완료 | 연구/초기 실험 단계 |
양자화 vs 프루닝 vs 지식증류
| 항목 | 양자화 | 프루닝 | 지식증류 |
|---|---|---|---|
| 원리 | 정밀도 축소 (FP32→INT8) | 불필요 가중치 제거 | Teacher→Student 지식 전이 |
| 크기 감소 | 4~10배 | 구조에 따라 다양 | 모델 교체 (소형화) |
| 성능 영향 | 미미~소폭 저하 | 구조적이면 미미 | 1~3% 저하 가능 |
| 학습 필요 | PTQ 불필요 / QAT 필요 | 재학습 권장 | Teacher+Student 학습 |
| 적용 | 추론 최적화 | 희소 모델 | 경량 모델 구축 |
Edge AI vs Cloud AI vs 하이브리드
| 항목 | Edge AI | Cloud AI | 하이브리드 |
|---|---|---|---|
| 실행 위치 | 디바이스 로컬 | 중앙 서버 | 일부 엣지 + 클라우드 |
| 지연시간 | 초저지연 (ms) | 네트워크 지연 | 상황별 최적화 |
| 프라이버시 | 높음 (데이터 비전송) | 낮음 (데이터 전송) | 중간 |
| 모델 크기 | 경량 모델 | 대형 모델 가능 | 혼합 |
| 오프라인 | 가능 | 불가 | 부분 가능 |
SLM vs LLM
| 항목 | SLM (소형 언어모델) | LLM (대형 언어모델) |
|---|---|---|
| 파라미터 | 1B~10B | 수십B~수천B |
| 추론 속도 | 빠름 | 느림 |
| 비용 | 저비용 | 고비용 |
| 범용성 | 도메인 특화 | 범용 |
| 온디바이스 | 가능 | 어려움 (클라우드) |
| 대표 모델 | Phi-3, Gemma, Mistral 7B | GPT-4, Claude, Gemini |
Speculative Decoding vs 양자화 vs 지식증류
| 항목 | Speculative Decoding | 양자화 | 지식증류 |
|---|---|---|---|
| 품질 | 유지 (수학적 동일) | 약간 저하 | 저하 가능 |
| 모델 구조 | Draft+Target 2개 | 단일 모델 | 학습 필요 |
| 속도 향상 | 2~3배 | 2~4배 | 모델 크기 의존 |
| 적용 난이도 | 중간 | 낮음 | 높음 (학습) |
중앙집중 학습 vs Federated Learning vs Split Learning
| 항목 | 중앙집중 학습 | Federated Learning | Split Learning |
|---|---|---|---|
| 데이터 이동 | 중앙 집중 | 이동 없음(로컬 유지) | 중간 표현만 전송 |
| 프라이버시 | 낮음(데이터 노출) | 높음(데이터 비공유) | 중간(중간층 노출) |
| 통신량 | 데이터 전체 전송 | 모델 파라미터만 전송 | 중간 활성화 전송 |
| 적합 시나리오 | 단일 조직 | 다수 디바이스/조직 | 자원 제한 디바이스 |