k- 평균 군집화에서 총 s와 ss 사이의 의미는 무엇입니까?


10

클러스터 분석을 처음 접했습니다. 나는 k- 평균 군집화에 R을 사용하고 있으며 그 것들이 무엇인지 궁금합니다. 비율이 더 작거나 클 경우 더 좋은 것은 무엇입니까?

답변:


12

기본적으로 k-means가 발견 한 분류의 장점을 측정 한 것입니다. SS는 분명히 Sum of Squares의 약자이므로, "Between"과 "Inin"사이의 이탈의 일반적인 분해입니다. 이상적으로는 내부 응집력과 외부 분리 특성이있는 클러스터링이 필요합니다. 즉 BSS / TSS 비율이 1에 근접해야합니다.

예를 들어, R에서 :

data(iris)
km <- kmeans(iris[,1:4], 3)

BSS / TSS 비율이 88.4 % (0.884)로 적합합니다. 주의해서 사용해야하며 일반적으로이 수를 미리 지정해야하므로 클러스터 수에 대해 WSS를 플로팅하는 것이 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.