토픽 20 / 172·머신러닝 기초
실루엣 계수 (Silhouette Coefficient)
실루엣 계수 (Silhouette Coefficient)
클러스터링 결과의 품질을 평가하는 내부 지표로, 각 데이터 포인트가 자신의 클러스터에 얼마나 잘 속하는지(응집도)와 다른 클러스터와 얼마나 잘 분리되는지(분리도)를 -1~1 범위로 측정
목적: 클러스터링 품질 평가, 최적 클러스터 수(K) 결정, 알고리즘 비교
계산식
- •a(i) = 동일 클러스터 내 다른 포인트들과의 평균 거리 (응집도, 작을수록 좋음)
- •b(i) = 가장 가까운 타 클러스터 포인트들과의 평균 거리 (분리도, 클수록 좋음)
- •s(i) = (b(i) - a(i)) / max(a(i), b(i))
- •전체 실루엣 계수 = 모든 데이터 포인트의 s(i) 평균
해석
- •+1에 가까움: 자기 클러스터에 잘 속하고 타 클러스터와 잘 분리 (최적)
- •0 근처: 클러스터 경계에 위치, 소속 불명확
- •-1에 가까움: 잘못된 클러스터에 배정 (최악)
- •일반적으로 0.5 이상이면 합리적, 0.7 이상이면 강한 구조
활용
- •최적 K 결정: 다양한 K에 대해 실루엣 계수 계산, 최대값의 K 선택
- •알고리즘 비교: 동일 데이터에 다른 클러스터링 알고리즘 적용 후 비교
- •개별 클러스터 분석: 클러스터별 실루엣 분포로 품질 진단
다른 평가지표와 비교
장점: 직관적 해석(-1~1), 개별 포인트 수준 분석 가능, 클러스터 수 결정에 유용
단점: O(n²) 계산 비용, 밀도 기반 클러스터에 부적합, 볼록 형상 클러스터에 유리
적용사례: K-means 최적 K 결정, 클러스터링 알고리즘 성능 비교, 고객 세분화 품질 검증
연관: 클러스터링, K-means, DBSCAN, 비지도학습, Davies-Bouldin Index