R의 혼합 데이터를위한 강력한 클러스터 방법


12

작은 데이터 세트 (4 개의 구간 변수 및 단일 3 요인 범주 형 변수에 대한 64 개의 관측치)를 군집화하려고합니다. 이제는 클러스터 분석을 처음 접했지만 계층 적 클러스터링 또는 k- 평균이 유일하게 사용 가능한 옵션이었던 시절부터 상당한 진전이 있었음을 알고 있습니다. 특히, chl의해 지적 된 바와 같이 "적합성 지수를 사용하여 클러스터 또는 클래스 수를 결정할 수있는" 새로운 모델 기반 클러스터링 방법을 사용할 수있는 것 같습니다 .

그러나 모델 기반 클러스터링을위한 표준 R 패키지는 mclust데이터 유형이 혼합 된 모델에는 적합하지 않습니다. fpc모델은하지만 모델을 피팅 문제가있다, 나는 때문에 연속 변수의 비정규 성격 생각한다. 모델 기반 접근법을 계속해야합니까? 가능한 경우 R을 계속 사용하고 싶습니다. 내가 볼 때 몇 가지 옵션이 있습니다.

  1. 3 단계 범주 형 변수를 두 개의 더미 변수로 변환하고을 사용하십시오 mclust. 이것이 결과를 편향 시킬지 확신 할 수 없지만 이것이 아니라면 이것이 선호되는 옵션입니다.
  2. 연속 변수를 어떻게 든 변환하고 fpc패키지를 사용하십시오 .
  3. 아직 접하지 않은 다른 R 패키지를 사용하십시오.
  4. Gower의 측정 값을 사용하여 비 유사성 매트릭스를 만들고 전통적인 계층 적 또는 재배치 클러스터 기법을 사용하십시오.

stats.se 하이브 마인드에 대한 제안이 있습니까?


범주 형 데이터를 더미 코드화 (하나의 핫 인코딩)로 변환하려면 dummy.data.frame 함수를 사용할 수 있습니다. 입력으로, 혼합 된 데이터를 제공 할 수 있으며 출력 으로서는 범주화 된 데이터 만 인코딩합니다.
Naghmeh

답변:


7

후속 계층 적 클러스터링에서 Gower 를 사용하는 것이 좋습니다 . 계층 적 클러스터링은 적은 수의 객체 (예 : 64)의 경우 가장 유연하고 적절한 방법으로 유지됩니다. 범주 형 변수가 명목 형인 경우 Gower는 내부적으로 변수를 더미 변수로 코딩하고 기본 주사위 유사성 (Gower의 일부로)을 기반으로합니다. 변수가 순서 형인 경우 Gower 계수의 최신 버전에서도 해당 변수를 수용 할 수 있습니다.

"최상의"군집 수를 결정하기위한 수많은 지표에 관해서는, 이들 군집은이 군집 또는 군집 알고리즘과 독립적으로 존재합니다. 이러한 인덱스가 별도의 패키지로 존재할 수 있으므로 이러한 인덱스를 반드시 포함하는 클러스터링 패키지를 찾지 않아도됩니다. 클러스터링 패키지 다음에 다양한 클러스터 솔루션을 남긴 후 다른 패키지의 인덱스로 비교합니다.


나는 팁을 주셔서 감사합니다.
fmark
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.