Learning
토픽 200 / 201·비교표

모델 최적화, 경량화, 서빙

Dense Model vs MoE

항목Dense ModelMoE (Mixture of Experts)
활성화모든 파라미터 활성희소 활성 (Top-K만)
파라미터전부 연산많지만 일부만 계산
효율성낮음높음 (조건부 계산)
대표GPT-3, BERTMixtral 8x7B, Switch Transformer

오픈소스 AI vs 폐쇄형 AI

항목오픈소스 AI폐쇄형 AI
투명성가중치/코드 공개API만 제공
비용무료 (인프라 필요)API 과금
커스터마이징자유 (파인튜닝)제한적
성능높지만 폐쇄형 대비 낮음최고 성능
지원커뮤니티공식 지원
대표LLaMA, Mistral, Stable DiffusionGPT-4, Claude, Gemini

Word2Vec vs BERT 임베딩 vs OpenAI 임베딩

항목Word2VecBERTOpenAI
유형단어 수준문맥 의존범용 문장
속도빠름무거움API 의존
문맥 반영정적 (동일 단어 동일 벡터)동적 (문맥별 다른 벡터)동적
적용유사도, 기본 NLPNLP SOTARAG, 검색

기존 연속 할당 vs PagedAttention

항목기존 연속 할당PagedAttention
메모리 할당최대 길이 사전 예약필요 시 블록 단위 할당
단편화내부 단편화 심각단편화 제거
메모리 효율~40% 활용~95% 활용
배치 크기메모리 한계로 제한동적 확장 가능
Copy-on-Write미지원지원(Beam Search 효율화)

전체 캐시 vs Sliding Window vs StreamingLLM

항목전체 캐시Sliding WindowStreamingLLM
메모리O(n) 무한 증가O(W) 고정O(N+W) 고정
무한 길이불가(OOM)가능(품질 저하)가능(품질 유지)
Sink 토큰해당 없음미보존보존
품질최고급격 저하안정적 유지

FP16 vs INT4 vs INT2 KV 캐시

항목FP16 KVINT4 KVINT2 KV
메모리기준(1×)~0.25×~0.125×
품질 저하없음미미소폭
컨텍스트 확장기준~4배~8배
적용 난이도없음보통Residual 양자화 필요

KVQuant vs QJL vs TurboQuant

항목KVQuantQJLTurboQuant
압축 방식값 양자화(비트 축소)차원 축소(프로젝션)혼합정밀도 양자화
이론 기반통계적 분포JL Lemma레이어 감도 분석
학습 필요캘리브레이션 필요불필요감도 분석 필요
병행 적용QJL과 병행 가능KVQuant와 병행 가능독립 적용

균일 양자화 vs TurboQuant

항목균일 양자화(INT4)TurboQuant(혼합)
비트폭모든 레이어 동일레이어별 INT1~4 가변
평균 비트4비트2~3비트
품질양호동등 이상
메모리 절감5~8×
추가 비용없음감도 분석 1회

학습 병렬화 전략 (DP vs TP vs PP vs ZeRO)

항목DPTPPPZeRO/FSDP
분할 대상데이터레이어 내 텐서레이어(스테이지)옵티마이저/기울기/파라미터
통신량AllReduce(기울기)AllReduce(활성화)P2P(스테이지 간)AllGather/ReduceScatter
메모리 효율낮음(모델 복제)높음높음최고(중복 제거)
GPU 활용높음높음버블 발생높음
대표 프레임워크PyTorch DDPMegatron-LMGPipe, PipeDreamDeepSpeed, PyTorch FSDP

기존 ML vs 양자 ML

구분기존 ML양자 ML
연산 단위비트 (0 or 1)큐비트 (중첩 상태)
병렬성순차/GPU 병렬양자 중첩 고유 병렬
특징 공간유한 차원지수적 차원 가능
하드웨어CPU/GPU/TPU양자 프로세서 (NISQ)
성숙도상용화 완료연구/초기 실험 단계

양자화 vs 프루닝 vs 지식증류

항목양자화프루닝지식증류
원리정밀도 축소 (FP32→INT8)불필요 가중치 제거Teacher→Student 지식 전이
크기 감소4~10배구조에 따라 다양모델 교체 (소형화)
성능 영향미미~소폭 저하구조적이면 미미1~3% 저하 가능
학습 필요PTQ 불필요 / QAT 필요재학습 권장Teacher+Student 학습
적용추론 최적화희소 모델경량 모델 구축

Edge AI vs Cloud AI vs 하이브리드

항목Edge AICloud AI하이브리드
실행 위치디바이스 로컬중앙 서버일부 엣지 + 클라우드
지연시간초저지연 (ms)네트워크 지연상황별 최적화
프라이버시높음 (데이터 비전송)낮음 (데이터 전송)중간
모델 크기경량 모델대형 모델 가능혼합
오프라인가능불가부분 가능

SLM vs LLM

항목SLM (소형 언어모델)LLM (대형 언어모델)
파라미터1B~10B수십B~수천B
추론 속도빠름느림
비용저비용고비용
범용성도메인 특화범용
온디바이스가능어려움 (클라우드)
대표 모델Phi-3, Gemma, Mistral 7BGPT-4, Claude, Gemini

Speculative Decoding vs 양자화 vs 지식증류

항목Speculative Decoding양자화지식증류
품질유지 (수학적 동일)약간 저하저하 가능
모델 구조Draft+Target 2개단일 모델학습 필요
속도 향상2~3배2~4배모델 크기 의존
적용 난이도중간낮음높음 (학습)

중앙집중 학습 vs Federated Learning vs Split Learning

항목중앙집중 학습Federated LearningSplit Learning
데이터 이동중앙 집중이동 없음(로컬 유지)중간 표현만 전송
프라이버시낮음(데이터 노출)높음(데이터 비공유)중간(중간층 노출)
통신량데이터 전체 전송모델 파라미터만 전송중간 활성화 전송
적합 시나리오단일 조직다수 디바이스/조직자원 제한 디바이스