전형적인 EM GMM 상황에서는 분산과 공분산을 고려합니다. 이것은 k- 평균에서는 수행되지 않습니다.
그러나 실제로 k-means에 대한 인기있는 휴리스틱 중 하나입니다 (참고 : k-means는 알고리즘이 아니라 문제입니다) – Lloyd 알고리즘은 본질적으로 중심 모델 (분산없이)과 어려운 할당을 사용하는 EM 알고리즘입니다.
k- 평균 스타일 군집화 (예 : 분산 최소화)를 수행 할 때
- WCSS (클러스터의 제곱합 내) 분산 기여도 = 제곱 유클리드 거리이므로 우연히 제곱 유클리드 거리를 최소화
- sqrt 함수가 모노톤이므로 평균이 유클리드 거리만큼 가장 가까운 군집에 객체를 동시에 할당합니다 (평균이 유클리드 거리를 최적화 하지는 않지만 WCSS 함수를 유의하십시오)
- 중심 만 사용하여 군집을 나타냄
- Voronoi 세포 모양의 클러스터, 즉 다각형을 얻습니다.
- 구형 클러스터와 가장 잘 작동합니다.
K 용 수단 목적 함수는 다음과 같이 공식화 될 수있다 :
여기서, S = { S (1) ... S K } 데이터 세트를 k 개의 파티션으로 분할 할 수 있으며 D 는 데이터 세트 차원이며, 예를 들어 x j d
아르 민에스∑나는 = 1케이∑엑스j∈ S나는∑디= 1디( xj d− μ나는 d)2
에스= { S1… S케이}케이디엑스j d차원
d 의
번째 인스턴스 의 좌표입니다 .
j디
k- 평균은 구형 클러스터라고 가정합니다. k- 평균 클러스터는 보로 노이 세포, 즉 구형이 아니라는 것이 일반적으로 인정된다. 둘 다 정확하고 둘 다 잘못되었습니다. 우선, 클러스터는 완전한 Voronoi 셀이 아니라 그 안에 알려진 객체 만 있습니다. 객체 사이에 알고리즘 결과에 영향을 줄 수 있으므로 클러스터 사이의 데드 스페이스를 두 클러스터의 일부로 간주 할 필요가 없습니다. 그러나 유클리드 거리가 구형이기 때문에 "구형"이라고 부르는 것이 낫지 않습니다. K- 평균은 유클리드 거리에 신경 쓰지 않습니다. 모든 것은 분산 을 최소화하는 휴리스틱 입니다. 그리고 실제로 k- 평균은 분산 최소화입니다.