토픽 18 / 172·머신러닝 기초
PCA (주성분 분석, Principal Component Analysis)
PCA (주성분 분석, Principal Component Analysis)
고차원 데이터를 분산이 최대인 방향(주성분)으로 투영하여 정보 손실을 최소화하면서 차원을 축소하는 비지도 선형 변환 기법
목적: 차원 축소, 데이터 시각화, 노이즈 제거, 특징 추출, 다중공선성 해결
동작원리
핵심 개념
- •주성분(PC): 데이터 분산이 최대인 직교 방향, PC1(최대분산) > PC2 > ... > PCn
- •고유값: 해당 주성분이 설명하는 분산의 크기
- •설명 분산 비율(Explained Variance Ratio): 각 PC가 전체 분산에서 차지하는 비율, 누적 90~95% 이상이 되는 k 선택
- •Scree Plot: 고유값을 주성분 순서대로 도시, 엘보우 포인트에서 차원 수 결정
특징: 선형 변환, 비지도(레이블 불필요), 직교 성분, 분산 기반
장점: 차원의 저주 완화, 시각화(2D/3D), 노이즈 감소, 계산 효율 향상, 다중공선성 제거
단점: 선형 관계만 포착(비선형은 Kernel PCA/t-SNE/UMAP), 주성분 해석 어려움, 스케일 민감(표준화 필수)
적용사례: 얼굴인식(Eigenface), 유전자 데이터 분석, 금융 포트폴리오 분석, 이미지 압축, 추천 시스템 전처리
비교: PCA(선형/빠름/전역구조) vs t-SNE(비선형/시각화특화/느림) vs UMAP(비선형/빠름/전역+국소) vs 오토인코더(비선형/신경망/복잡)
연관: 비지도학습, 차원 축소, 공분산, 고유값 분해, t-SNE, 특징 공학