작은 데이터 세트 (4 개의 구간 변수 및 단일 3 요인 범주 형 변수에 대한 64 개의 관측치)를 군집화하려고합니다. 이제는 클러스터 분석을 처음 접했지만 계층 적 클러스터링 또는 k- 평균이 유일하게 사용 가능한 옵션이었던 시절부터 상당한 진전이 있었음을 알고 있습니다. 특히, chl 에 의해 지적 된 바와 같이 "적합성 지수를 사용하여 클러스터 또는 클래스 수를 결정할 수있는" 새로운 모델 기반 클러스터링 방법을 사용할 수있는 것 같습니다 .
그러나 모델 기반 클러스터링을위한 표준 R 패키지는 mclust
데이터 유형이 혼합 된 모델에는 적합하지 않습니다. fpc
모델은하지만 모델을 피팅 문제가있다, 나는 때문에 연속 변수의 비정규 성격 생각한다. 모델 기반 접근법을 계속해야합니까? 가능한 경우 R을 계속 사용하고 싶습니다. 내가 볼 때 몇 가지 옵션이 있습니다.
- 3 단계 범주 형 변수를 두 개의 더미 변수로 변환하고을 사용하십시오
mclust
. 이것이 결과를 편향 시킬지 확신 할 수 없지만 이것이 아니라면 이것이 선호되는 옵션입니다. - 연속 변수를 어떻게 든 변환하고
fpc
패키지를 사용하십시오 . - 아직 접하지 않은 다른 R 패키지를 사용하십시오.
- Gower의 측정 값을 사용하여 비 유사성 매트릭스를 만들고 전통적인 계층 적 또는 재배치 클러스터 기법을 사용하십시오.
stats.se 하이브 마인드에 대한 제안이 있습니까?