토픽 193 / 201·비교표

딥러닝

머신러닝 vs 딥러닝

항목	머신러닝	딥러닝
특징추출	수동 설계 (Feature Engineering)	자동 추출 (End-to-End)
데이터 규모	소~중규모로 충분	대규모 데이터 필수
모델 구조	단순 (선형, 트리)	다층 신경망
계산자원	CPU로 충분	GPU/TPU 필수
해석성	상대적 용이	블랙박스

CNN vs RNN vs Transformer

항목	CNN	RNN	Transformer
대상	이미지·공간 데이터	시계열·순차 데이터	범용 (텍스트/이미지)
핵심연산	합성곱 (지역 패턴)	순환연결 (시간 패턴)	Self-Attention (전역)
병렬처리	가능	불가 (순차)	완전 병렬
장거리 의존	제한적	기울기소실 문제	O(1) 직접 연결
대표모델	ResNet, YOLO	LSTM, GRU	BERT, GPT

RNN vs LSTM vs GRU

항목	RNN	LSTM	GRU
구조	단순 순환	셀상태 + 3개 게이트	2개 게이트
장기의존성	기울기소실 문제	해결 (셀상태)	해결 (간소화)
파라미터	적음	많음	중간
속도	빠름	느림	LSTM보다 빠름
성능	낮음	높음	LSTM과 유사

Batch GD vs SGD vs Adam

항목	Batch GD	SGD	Adam
데이터 단위	전체 데이터	1개 샘플	미니배치
안정성	안정적	노이즈 큼	적응적·안정
속도	느림	빠름	범용·빠름
메모리	많음	적음	2배 (1차/2차 모멘트)
적용	소규모 데이터	지역최소 탈출	현재 표준

ReLU vs Sigmoid vs Softmax

항목	ReLU	Sigmoid	Softmax
수식	max(0, x)	1/(1+e^-x)	e^xi/Σe^xj
출력범위	0~∞	0~1	0~1 (합=1)
기울기소실	방지 (양수 영역)	심각	해당없음
계산비용	매우 낮음	높음 (지수)	중간
용도	은닉층 기본	이진분류 출력	다중분류 출력

L1 vs L2 vs Dropout

항목	L1 (Lasso)	L2 (Ridge)	Dropout
방법	가중치 절대값 패널티	가중치 제곱 패널티	뉴런 무작위 제거
효과	희소 모델 (특징 선택)	부드러운 가중치 분산	앙상블 효과
적용	특징 선택 필요 시	과적합 방지 일반	딥러닝 은닉층

BN vs LN vs GN vs IN

항목	Batch Norm	Layer Norm	Group Norm	Instance Norm
정규화 단위	배치	층	그룹	인스턴스
배치 의존	의존	무관	무관	무관
대표 적용	CNN 표준	Transformer 표준	소배치/객체탐지	스타일 전이

VGGNet vs ResNet vs DenseNet

항목	VGGNet	ResNet	DenseNet
구조	단순 직선형	잔차 연결 (Skip)	모든 층 연결
깊이	16~19층	50~152층	100+층
기울기소실	발생	해결 (Skip Connection)	해결 (Dense 연결)
파라미터	많음	효율적	파라미터 효율
메모리	중간	중간	많음

고편향 vs 고분산 (편향-분산 트레이드오프)

항목	고편향 (과소적합)	고분산 (과적합)
모델	단순 모델	복잡 모델
학습 오차	높음	낮음
테스트 오차	높음	높음 (학습과 괴리)
예측 패턴	일관된 오류	불안정한 예측
해결	복잡도 증가, 특징 추가	정규화, 데이터 증가

목록 ←머신러닝 기초 다음: Transformer와 언어모델→