Calinski & Harabasz (CH) 기준의 허용 가능한 값은 무엇입니까?


25

R과 kml 패키지를 사용하여 종단 데이터를 군집화 하려는 데이터 분석을 수행했습니다 . 내 데이터에는 약 400 개의 개별 궤적이 포함되어 있습니다 (서류에 언급되어 있음). 다음 그림에서 내 결과를 볼 수 있습니다.

여기에 이미지 설명을 입력하십시오

해당 논문 에서 2.2 장 "최적의 군집 선택"을 읽은 후 아무런 답을 얻지 못했습니다. 3 개의 군집을 선호하지만 결과는 여전히 CH가 80 인 Ok가됩니다. 실제로는 CH 값이 무엇을 나타내는지도 모릅니다.

내 질문에, Calinski & Harabasz (CH) 기준의 수용 가능한 가치는 무엇입니까?


클러스터 솔루션 이미지는 SPSS에서 가져온 것입니까? 이 CH 기준을 SPSS에서 계산할 수 있습니까? 감사! :) b
berbelein

@berbelein 사이트에 오신 것을 환영합니다. 이것은 OP의 질문에 대한 답변이 아닙니다. 답변을 제공하려면 "답변"필드 만 사용하십시오. 당신이 당신의 자신의 질문 [ASK QUESTION]이있는 경우, 거기에 질문을 클릭하면 우리가 당신을 올바르게 도울 수 있습니다. 여기에 처음 오셨으므로 새로운 사용자를위한 정보가 포함 된 둘러보기 를 이용하십시오 .
gung-복직 모니카

@berbelein 이미지는 R에서 온 것입니다.
greg121

답변:


40

알아 두어야 할 것이 몇 가지 있습니다.

  • 대부분의 내부 클러스터링 기준 과 마찬가지로 Calinski-Harabasz는 휴리스틱 장치입니다. 이를 사용하는 올바른 방법은 동일한 데이터에서 얻은 클러스터링 솔루션 (클러스터 수 또는 사용 된 클러스터링 방법에 따라 다른 솔루션)을 비교하는 것입니다.

  • "허용 가능한"컷오프 값이 없습니다. CH 값을 눈으로 비교하기 만하면됩니다. 값이 클수록 "더 나은"솔루션이됩니다. CH 값의 라인 플롯에 하나의 솔루션이 피크 또는 적어도 갑작스러운 팔꿈치를 제공하는 것으로 보이면 선택하십시오. 반대로 선이 수평이거나 오름차순 또는 내림차순으로 매끄럽다면 한 솔루션을 다른 솔루션보다 선호 할 이유가 없습니다.

  • CH 기준은 ANOVA 이데올로기를 기반으로합니다. 따라서 클러스터 된 객체는 유클리드 규모의 공간 (서수 또는 이진 또는 명목이 아님) 변수에 있음을 의미합니다. 군집 된 데이터가 객체 X 변수가 아니라 객체 간의 비 유사성 매트릭스 인 경우 비 유사성 측정 값은 (제곱) 유클리드 거리 여야합니다 (또는 특성에 따라 유클리드 거리에 근접한 다른 메트릭 거리).

  • 1

예를 보자. 아래는 서로 매우 가까운 5 개의 정규 분산 클러스터로 생성 된 데이터의 산점도입니다.

여기에 이미지 설명을 입력하십시오

이러한 데이터는 계층 적 평균 연결 방법으로 클러스터링되었으며 15 클러스터에서 2 클러스터 솔루션까지의 모든 클러스터 솔루션 (클러스터 멤버 자격)이 저장되었습니다. 그런 다음 두 가지 클러스터링 기준을 적용하여 솔루션을 비교하고 "더 나은"솔루션을 선택했습니다 (있는 경우).

여기에 이미지 설명을 입력하십시오

Calinski-Harabasz의 줄거리는 왼쪽에 있습니다. 이 예에서 CH는 일반적으로 5- 클러스터 솔루션 (CLU5_1으로 표시됨)을 가장 좋은 것으로 나타냅니다. 또 다른 군집화 기준 인 C-Index (ANOVA 이데올로기를 기반으로하지 않고 CH보다 적용에 더 보편적 임)에 대한 플롯이 오른쪽에 있습니다. C-Index의 경우 값이 작을수록 "더 나은"솔루션을 나타냅니다. 플롯에서 알 수 있듯이 15 클러스터 솔루션이 공식적으로 최고입니다. 그러나 클러스터링 기준을 사용하면 견고한 지형이 규모 자체보다 결정에서 더 중요합니다. 5- 클러스터 솔루션에는 팔꿈치가 있습니다. 5- 클러스터 솔루션은 여전히 ​​상대적으로 우수하지만 4- 또는 3- 클러스터 솔루션은 도약으로 악화됩니다. 일반적으로 "클러스터 수가 적은 더 나은 솔루션"을 원하므로 C-Index 테스트에서도 5- 클러스터 솔루션을 선택하는 것이 합리적입니다.

PS 이 포스트 은 또한 클러스터링 기준 의 실제 최대 값 (또는 최소값)을 더 신뢰해야하는지 또는 그 값의 플롯의 풍경 을 더 신뢰해야하는지에 대한 질문을 제기합니다 .


1 나중에 참고 . 쓰여진대로는 아닙니다. 시뮬레이션 된 데이터 셋에 대한 나의 프로브는 CH가 표절 편 (예를 들어 공에서) 또는 타원체보다 원형 클러스터에 비해 종 모양 분포를 선호하지 않는다는 것을 확신합니다. 그러나 기억해야 할 한 가지 미묘한 점은 클러스터가 (평소와 같이) 공간에서 겹치지 않아야하는 경우 둥근 클러스터를 사용하는 좋은 클러스터 구성이 긴 클러스터를 사용하는 것과 유사한 양호한 구성으로 실제로 실제로 쉽게 접할 수 있다는 것 입니다. "필요한 경우의 연필"효과); 그것은 클러스터링 기준의 편견과 아무 관련이 없습니다.

내부 클러스터링 기준 및 사용 방법에 대한 개요 .


독자는 질문 stats.stackexchange.com/q/242360/3277도보고 싶을 것 입니다.
ttnphns

SPSS에 가장 많이 사용되는 클러스터링 유효성 검사 기준을 여러 개 구현했습니다. 웹 페이지 컬렉션 "클러스터링 기준"을 방문하십시오.
ttnphns 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.