토픽 17 / 172·머신러닝 기초
비지도학습 (Unsupervised Learning)
비지도학습 (Unsupervised Learning)
정답 레이블 없이 입력 데이터(X)만으로 숨겨진 패턴·구조·관계를 스스로 발견하는 방식으로, 군집화·차원축소·이상탐지를 통해 데이터 탐색과 전처리에 활용되며 레이블링 비용이 없어 대규모 데이터 분석에 유리
특징: 레이블 불필요, 패턴 자동 발견, 낮은 데이터 비용, 정성적 평가
주요과제
- •군집화: 유사 데이터 그룹핑, K-means·DBSCAN·Hierarchical
- •차원축소: 고차원→저차원 압축, PCA·t-SNE·UMAP·오토인코더
- •이상탐지: 정상 이탈 검출, Isolation Forest·One-Class SVM
군집화 알고리즘
- •K-means: K개 중심점 기준, 빠름, K값 사전지정 필요
- •DBSCAN: 밀도 기반, 임의 모양, 노이즈 처리
- •Hierarchical: 계층 구조, 덴드로그램, 클러스터 수 사후결정
차원축소 알고리즘
- •PCA: 분산 최대 방향 투영, 선형, 빠름
- •t-SNE: 이웃 관계 보존, 시각화 우수, 느림
- •UMAP: t-SNE보다 빠름, 전역·국소 구조 보존
- •오토인코더: 신경망 압축·복원, 비선형
평가지표: Silhouette Score(응집도·분리도), Davies-Bouldin Index, Reconstruction Error
적용사례: 고객세분화(K-means), 유사상품찾기(군집화), 이미지압축(PCA), 사기탐지(Isolation Forest), 유전자그룹핑(Hierarchical)
비교: 지도학습(레이블필요·예측) vs 비지도학습(레이블없음·탐색)
연관: 머신러닝, 군집화, 차원축소, 이상탐지, K-means, PCA, 오토인코더