알아 두어야 할 것이 몇 가지 있습니다.
대부분의 내부 클러스터링 기준 과 마찬가지로 Calinski-Harabasz는 휴리스틱 장치입니다. 이를 사용하는 올바른 방법은 동일한 데이터에서 얻은 클러스터링 솔루션 (클러스터 수 또는 사용 된 클러스터링 방법에 따라 다른 솔루션)을 비교하는 것입니다.
"허용 가능한"컷오프 값이 없습니다. CH 값을 눈으로 비교하기 만하면됩니다. 값이 클수록 "더 나은"솔루션이됩니다. CH 값의 라인 플롯에 하나의 솔루션이 피크 또는 적어도 갑작스러운 팔꿈치를 제공하는 것으로 보이면 선택하십시오. 반대로 선이 수평이거나 오름차순 또는 내림차순으로 매끄럽다면 한 솔루션을 다른 솔루션보다 선호 할 이유가 없습니다.
CH 기준은 ANOVA 이데올로기를 기반으로합니다. 따라서 클러스터 된 객체는 유클리드 규모의 공간 (서수 또는 이진 또는 명목이 아님) 변수에 있음을 의미합니다. 군집 된 데이터가 객체 X 변수가 아니라 객체 간의 비 유사성 매트릭스 인 경우 비 유사성 측정 값은 (제곱) 유클리드 거리 여야합니다 (또는 특성에 따라 유클리드 거리에 근접한 다른 메트릭 거리).
1
예를 보자. 아래는 서로 매우 가까운 5 개의 정규 분산 클러스터로 생성 된 데이터의 산점도입니다.
이러한 데이터는 계층 적 평균 연결 방법으로 클러스터링되었으며 15 클러스터에서 2 클러스터 솔루션까지의 모든 클러스터 솔루션 (클러스터 멤버 자격)이 저장되었습니다. 그런 다음 두 가지 클러스터링 기준을 적용하여 솔루션을 비교하고 "더 나은"솔루션을 선택했습니다 (있는 경우).
Calinski-Harabasz의 줄거리는 왼쪽에 있습니다. 이 예에서 CH는 일반적으로 5- 클러스터 솔루션 (CLU5_1으로 표시됨)을 가장 좋은 것으로 나타냅니다. 또 다른 군집화 기준 인 C-Index (ANOVA 이데올로기를 기반으로하지 않고 CH보다 적용에 더 보편적 임)에 대한 플롯이 오른쪽에 있습니다. C-Index의 경우 값이 작을수록 "더 나은"솔루션을 나타냅니다. 플롯에서 알 수 있듯이 15 클러스터 솔루션이 공식적으로 최고입니다. 그러나 클러스터링 기준을 사용하면 견고한 지형이 규모 자체보다 결정에서 더 중요합니다. 5- 클러스터 솔루션에는 팔꿈치가 있습니다. 5- 클러스터 솔루션은 여전히 상대적으로 우수하지만 4- 또는 3- 클러스터 솔루션은 도약으로 악화됩니다. 일반적으로 "클러스터 수가 적은 더 나은 솔루션"을 원하므로 C-Index 테스트에서도 5- 클러스터 솔루션을 선택하는 것이 합리적입니다.
PS 이 포스트 은 또한 클러스터링 기준 의 실제 최대 값 (또는 최소값)을 더 신뢰해야하는지 또는 그 값의 플롯의 풍경 을 더 신뢰해야하는지에 대한 질문을 제기합니다 .
1 나중에 참고 . 쓰여진대로는 아닙니다. 시뮬레이션 된 데이터 셋에 대한 나의 프로브는 CH가 표절 편 (예를 들어 공에서) 또는 타원체보다 원형 클러스터에 비해 종 모양 분포를 선호하지 않는다는 것을 확신합니다. 그러나 기억해야 할 한 가지 미묘한 점은 클러스터가 (평소와 같이) 공간에서 겹치지 않아야하는 경우 둥근 클러스터를 사용하는 좋은 클러스터 구성이 긴 클러스터를 사용하는 것과 유사한 양호한 구성으로 실제로 실제로 쉽게 접할 수 있다는 것 입니다. "필요한 경우의 연필"효과); 그것은 클러스터링 기준의 편견과 아무 관련이 없습니다.
내부 클러스터링 기준 및 사용 방법에 대한 개요 .