혼합 된 데이터 변수가있는 데이터의 클러스터링을 R 내에서 수행 할 수 있는지 궁금합니다. 즉, 숫자 및 범주 형 변수가 모두 포함 된 데이터 세트가 있으며 변수를 묶는 가장 좋은 방법을 찾고 있습니다. SPSS에서는 2 단계 클러스터를 사용합니다. R에서 비슷한 기술을 찾을 수 있는지 궁금합니다. poLCA 패키지에 대해 들었지만 확실하지 않습니다 ...
혼합 된 데이터 변수가있는 데이터의 클러스터링을 R 내에서 수행 할 수 있는지 궁금합니다. 즉, 숫자 및 범주 형 변수가 모두 포함 된 데이터 세트가 있으며 변수를 묶는 가장 좋은 방법을 찾고 있습니다. SPSS에서는 2 단계 클러스터를 사용합니다. R에서 비슷한 기술을 찾을 수 있는지 궁금합니다. poLCA 패키지에 대해 들었지만 확실하지 않습니다 ...
답변:
늦었지만 올 수 있습니다. klaR ( http://cran.r-project.org/web/packages/klaR/index.html )
install.packages("klar")
이 변수 사이의 거리 δ 있도록 비 계층 K-모드, 거리 함수로서 간단한 매칭에 기초하는 알고리즘 사용하여 m 개의 데이터 포인트는 와 주어진다y
패키지에 결함이 있습니다. 즉, 두 개의 데이터 포인트가 클러스터 중심과 동일한 거리를 갖는 경우 임의의 포인트가 아닌 데이터의 첫 번째 포인트가 선택되지만 코드의 비트를 쉽게 수정할 수 있습니다.
혼합 변수 클러스터링을 수용하려면 코드로 이동하여 거리 기능을 수정하여 숫자 및 비 숫자 모드 및 변수를 식별해야합니다.
혼합 유형의 변수를 처리하는 또 다른 매력적인 방법은 Random Forests ( http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf) 의 근접 / 유사성 매트릭스를 사용하는 것 입니다. 이것은 모든 변수를 동일하게 취급하는 통일 된 방법을 용이하게합니다 (그럼에도 불구하고 변수 선택 바이어스 문제를 알고 있습니다). 반면에 혼합 유형의 변수에 대한 거리를 정의하는 금의 보편적 인 방법은 실제로 없습니다. 모두 응용 프로그램 컨텍스트에 따라 다릅니다.
다중 대응 일치 분석을 사용하여 범주 형 변수에서 연속 치수를 만든 다음 두 번째 단계에서 숫자 변수와 함께이를 사용할 수 있습니다.
글쎄, 당신은 확실히 할 수 있습니다. 범주 형 변수를 인위적으로 숫자로 만듭니다. 또는 거리 매트릭스 기반 클러스터링을 사용하십시오 (fpc는 아마도 그렇게 할 수 있습니다). 먼저 대답해야 할 질문은 실제로 이해가됩니까?
다중 상태 문자 (공칭 또는 서수) : 같으면 1, 그렇지 않으면 0 (단순 일치 계수와 동일)
OTU 사이의 거리는 로 나타낼 수 있습니다
k 프로토 타입 클러스터링이 여기에 더 적합 할 수 있습니다. k- 모드와 k- 평균을 결합하여 혼합 된 수치 / 범주 데이터를 군집화 할 수 있습니다. R의 경우 'clustMixType'패키지를 사용하십시오.
https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf