토픽 200 / 201·비교표

모델 최적화, 경량화, 서빙

Dense Model vs MoE

항목	Dense Model	MoE (Mixture of Experts)
활성화	모든 파라미터 활성	희소 활성 (Top-K만)
파라미터	전부 연산	많지만 일부만 계산
효율성	낮음	높음 (조건부 계산)
대표	GPT-3, BERT	Mixtral 8x7B, Switch Transformer

오픈소스 AI vs 폐쇄형 AI

항목	오픈소스 AI	폐쇄형 AI
투명성	가중치/코드 공개	API만 제공
비용	무료 (인프라 필요)	API 과금
커스터마이징	자유 (파인튜닝)	제한적
성능	높지만 폐쇄형 대비 낮음	최고 성능
지원	커뮤니티	공식 지원
대표	LLaMA, Mistral, Stable Diffusion	GPT-4, Claude, Gemini

Word2Vec vs BERT 임베딩 vs OpenAI 임베딩

항목	Word2Vec	BERT	OpenAI
유형	단어 수준	문맥 의존	범용 문장
속도	빠름	무거움	API 의존
문맥 반영	정적 (동일 단어 동일 벡터)	동적 (문맥별 다른 벡터)	동적
적용	유사도, 기본 NLP	NLP SOTA	RAG, 검색

기존 연속 할당 vs PagedAttention

항목	기존 연속 할당	PagedAttention
메모리 할당	최대 길이 사전 예약	필요 시 블록 단위 할당
단편화	내부 단편화 심각	단편화 제거
메모리 효율	~40% 활용	~95% 활용
배치 크기	메모리 한계로 제한	동적 확장 가능
Copy-on-Write	미지원	지원(Beam Search 효율화)

전체 캐시 vs Sliding Window vs StreamingLLM

항목	전체 캐시	Sliding Window	StreamingLLM
메모리	O(n) 무한 증가	O(W) 고정	O(N+W) 고정
무한 길이	불가(OOM)	가능(품질 저하)	가능(품질 유지)
Sink 토큰	해당 없음	미보존	보존
품질	최고	급격 저하	안정적 유지

FP16 vs INT4 vs INT2 KV 캐시

항목	FP16 KV	INT4 KV	INT2 KV
메모리	기준(1×)	~0.25×	~0.125×
품질 저하	없음	미미	소폭
컨텍스트 확장	기준	~4배	~8배
적용 난이도	없음	보통	Residual 양자화 필요

KVQuant vs QJL vs TurboQuant

항목	KVQuant	QJL	TurboQuant
압축 방식	값 양자화(비트 축소)	차원 축소(프로젝션)	혼합정밀도 양자화
이론 기반	통계적 분포	JL Lemma	레이어 감도 분석
학습 필요	캘리브레이션 필요	불필요	감도 분석 필요
병행 적용	QJL과 병행 가능	KVQuant와 병행 가능	독립 적용

균일 양자화 vs TurboQuant

항목	균일 양자화(INT4)	TurboQuant(혼합)
비트폭	모든 레이어 동일	레이어별 INT1~4 가변
평균 비트	4비트	2~3비트
품질	양호	동등 이상
메모리 절감	4×	5~8×
추가 비용	없음	감도 분석 1회

학습 병렬화 전략 (DP vs TP vs PP vs ZeRO)

항목	DP	TP	PP	ZeRO/FSDP
분할 대상	데이터	레이어 내 텐서	레이어(스테이지)	옵티마이저/기울기/파라미터
통신량	AllReduce(기울기)	AllReduce(활성화)	P2P(스테이지 간)	AllGather/ReduceScatter
메모리 효율	낮음(모델 복제)	높음	높음	최고(중복 제거)
GPU 활용	높음	높음	버블 발생	높음
대표 프레임워크	PyTorch DDP	Megatron-LM	GPipe, PipeDream	DeepSpeed, PyTorch FSDP

기존 ML vs 양자 ML

구분	기존 ML	양자 ML
연산 단위	비트 (0 or 1)	큐비트 (중첩 상태)
병렬성	순차/GPU 병렬	양자 중첩 고유 병렬
특징 공간	유한 차원	지수적 차원 가능
하드웨어	CPU/GPU/TPU	양자 프로세서 (NISQ)
성숙도	상용화 완료	연구/초기 실험 단계

양자화 vs 프루닝 vs 지식증류

항목	양자화	프루닝	지식증류
원리	정밀도 축소 (FP32→INT8)	불필요 가중치 제거	Teacher→Student 지식 전이
크기 감소	4~10배	구조에 따라 다양	모델 교체 (소형화)
성능 영향	미미~소폭 저하	구조적이면 미미	1~3% 저하 가능
학습 필요	PTQ 불필요 / QAT 필요	재학습 권장	Teacher+Student 학습
적용	추론 최적화	희소 모델	경량 모델 구축

Edge AI vs Cloud AI vs 하이브리드

항목	Edge AI	Cloud AI	하이브리드
실행 위치	디바이스 로컬	중앙 서버	일부 엣지 + 클라우드
지연시간	초저지연 (ms)	네트워크 지연	상황별 최적화
프라이버시	높음 (데이터 비전송)	낮음 (데이터 전송)	중간
모델 크기	경량 모델	대형 모델 가능	혼합
오프라인	가능	불가	부분 가능

SLM vs LLM

항목	SLM (소형 언어모델)	LLM (대형 언어모델)
파라미터	1B~10B	수십B~수천B
추론 속도	빠름	느림
비용	저비용	고비용
범용성	도메인 특화	범용
온디바이스	가능	어려움 (클라우드)
대표 모델	Phi-3, Gemma, Mistral 7B	GPT-4, Claude, Gemini

Speculative Decoding vs 양자화 vs 지식증류

항목	Speculative Decoding	양자화	지식증류
품질	유지 (수학적 동일)	약간 저하	저하 가능
모델 구조	Draft+Target 2개	단일 모델	학습 필요
속도 향상	2~3배	2~4배	모델 크기 의존
적용 난이도	중간	낮음	높음 (학습)

중앙집중 학습 vs Federated Learning vs Split Learning

항목	중앙집중 학습	Federated Learning	Split Learning
데이터 이동	중앙 집중	이동 없음(로컬 유지)	중간 표현만 전송
프라이버시	낮음(데이터 노출)	높음(데이터 비공유)	중간(중간층 노출)
통신량	데이터 전체 전송	모델 파라미터만 전송	중간 활성화 전송
적합 시나리오	단일 조직	다수 디바이스/조직	자원 제한 디바이스

목록 ←LLM 파인튜닝과 정렬 다음: 학습 패러다임과 특수 모델→