군집 분석은 통계 단위 그룹 (개인이든 변수이든)을 분리하려고하기 때문에 사용하는 군집화 방법에 관계없이 데이터에서 "최고의"군집 수를 선택하는 방법에 대한 명확한 솔루션을 제공하기가 다소 어렵습니다. ) 본질적으로 탐색 적이거나 설명적인 목적으로 사용됩니다. 따라서 클러스터링 구성표의 출력을 해석해야하며 여러 클러스터 솔루션도 똑같이 흥미로울 수 있습니다.
이제 @ars가 지적한 것처럼 데이터 집계 중단 시점을 결정하는 데 사용되는 일반적인 통계 기준에 대해서는 덴드로 그램 분석 또는 실루엣 플롯 이라고도하는 클러스터 프로파일 검사를 포함한 시각적 지침 기준이 있습니다 (Rousseeuw, 1987). . Dunn 's validity index, Davies-Bouldin validity index, C index, Hubert 's gamma와 같은 몇 가지 수치 기준 ( 예 : 유효성 지수)도 제안되었습니다. 계층 적 클러스터링은 종종 k- 평균 (실제로 확률 적 알고리즘이므로 k- 평균의 여러 인스턴스)과 함께 실행되므로 발견 된 클러스터링 솔루션에 대한 지원이 추가됩니다. 이 모든 것들이 파이썬에서 쉽게 구할 수 있는지는 모르겠지만 R에서는 방대한 양의 메소드를 사용할 수 있습니다 (관련 질문에 대해 @mbq에서 이미 인용 한 클러스터 작업보기 MovieLens에 클러스터링 알고리즘을 적용하는 데 어떤 도구를 사용할 수 있습니까? ). 다른 접근 방법은 다음과 같습니다 퍼지 클러스터링 및 모델 기반 클러스터링 (또한 잠재 특성 분석 당신이 당신의 데이터 클러스터의 수를 선택할 수있는 더 강력한 방법을 찾는 경우 심리 사회를,).
BTW, 난 그냥이 웹 페이지에 걸쳐 온 scipy - 클러스터 이며, 시각화, 계층 적 클러스터를 분석, 생성 Scipy의 확장 . 다른 기능이 포함되어 있습니까? 또한 다변량 분석에 매우 유용한 PyChem 을 들었습니다 .
다음 참조도 도움이 될 수 있습니다.
Steinley, D. & & Brusco, MJ (2008). 군집 분석에서 변수 선택 : 8 가지 절차를 실험적으로 비교합니다. Psychometrika , 73 , 125-144.