토픽 19 / 172·머신러닝 기초

클러스터링 (K-means / DBSCAN)

레이블 없는 데이터를 유사도 기준으로 그룹(클러스터)으로 분할하는 비지도학습 기법

특징: 레이블 불필요, 유사도 기반, 탐색적 분석

K-means: K개 중심점 기반, 할당→재계산 반복, K-means++(초기화 개선), 구형 클러스터 가정, 이상치 민감

K 선택: 엘보 방법(왜곡도 변곡점), 실루엣 분석, Gap Statistic

DBSCAN: 밀도 기반(eps/minPts), 코어/경계/잡음 포인트, K 사전 지정 불필요, 임의 형상, 밀도 차이 큰 데이터 부적합

계층적: Agglomerative(Bottom-up) vs Divisive(Top-down), 덴드로그램으로 K 결정, O(n²~n³)

비교: K-means(중심점/K사전지정/구형/O(nKt)) vs DBSCAN(밀도/자동/임의형상) vs 계층적(덴드로그램/소규모)

평가지표: 실루엣 계수, 엘보 방법, Davies-Bouldin, Calinski-Harabasz

적용사례: 고객 세분화, 문서 군집화, 이미지 분할, 이상탐지

연관: 비지도학습, 실루엣 계수, 차원축소, PCA