K- 평균은 거리 기반 클러스터링 알고리즘 이 아닙니다 .
K- 평균은 최소 제곱합 할당을 검색 합니다 . 즉, total_SS
점을 군집 중심에 할당하여 정규화되지 않은 분산 (= )을 최소화 합니다.
k- 평균이 수렴하려면 두 가지 조건이 필요합니다.
- 포인트를 재 할당하면 제곱 의 합이 줄어 듭니다.
- 평균을 다시 계산하면 제곱 의 합이 줄어 듭니다.
유한 조합 수가 한정되어 있으므로이 값을 무한정 줄일 수 없으며 알고리즘은 어느 시점에서 로컬 최적으로 수렴해야합니다 .
∑i(xi−μji)2j. 수학적으로 최소 제곱합으로 할당하는 것은 가까운 제곱 유클리드 거리로 할당하는 sqrt
것과 같습니다 (이 계산을 위해 CPU 사이클을 낭비하는 경우 )는 최소 유클리드 거리 할당과 같습니다. 따라서 각 점을 가장 가까운 평균에 할당 하는 직관 은 정확하지만 최적화 문제는 수행하지 않습니다.
between_SS
아마도 클러스터 센터가 얼마나 잘 분리되어 있는지 측정하기 위해 두 평균 간의 가중 제곱합 일 것입니다.
k- 평균을 사용하면 k를 늘려 순진 군집 품질을 향상시킬 수 있습니다. 여기에서 측정 된 품질은 수학적 값으로, 사용자 요구 사항과 일치 하지 않을 수 있습니다 . 아이리스는 실제로 좋은 예입니다. k- 평균은 정확히 3 개의 군집이 있어야한다는 외부 정보를 고려하더라도 종종 만족스러운 결과보다 적은 수렴으로 수렴합니다.
당신이 원하는 경우 K-수단의 거리 기반의 변화를 , 볼 K-medoids . 평균을 메도 이드로 대체하여 수렴이 보장됩니다.
- 각 객체는 가장 가까운 클러스터에 할당됩니다 (임의의 거리 측정으로)
- 클러스터 센터는 클러스터의 가장 중심 객체로 업데이트됩니다. 즉, 다른 모든 거리와의 평균 거리가 가장 짧습니다.
각 단계에서 거리 의 합이 줄어 듭니다. 한정된 수의 조합이 있으므로 알고리즘은 로컬 최소값으로 종료해야합니다.