R을 사용한 혼합 유형 데이터 클러스터링


19

혼합 된 데이터 변수가있는 데이터의 클러스터링을 R 내에서 수행 할 수 있는지 궁금합니다. 즉, 숫자 및 범주 형 변수가 모두 포함 된 데이터 세트가 있으며 변수를 묶는 가장 좋은 방법을 찾고 있습니다. SPSS에서는 2 단계 클러스터를 사용합니다. R에서 비슷한 기술을 찾을 수 있는지 궁금합니다. poLCA 패키지에 대해 들었지만 확실하지 않습니다 ...


1
SPSS TwoStep이 대용량 데이터 세트를 처리하도록 설계 되지 않았 습니까? ( 여기서는 관련 질문에 대한 답변을 제공합니다 .) 그렇지 않은 경우 주성분 분석이 연속 변수와 범주 변수가 혼합 된 데이터 세트에 적용될 수 있습니까? 도움이 필요하십니까?
chl

R 패키지 클러스터 에는 혼합 데이터에 대한 비 유사성 매트릭스 (고어 유사성 계수)를 생성하는 데이지 가 있습니다. 그런 다음 ? agnes 또는 다른 클러스터링 기능을 사용할 수 있습니다 .
rhonda

1
메소드를 구현과 혼동하지 마십시오. 먼저 말이되는 클러스터링 알고리즘을 찾으십시오. 그런 다음 이를 구현하는 R 패키지를 찾으십시오.
shadowtalker

고 우어 유사성 이 사용될 수있다.
ttnphns

@gung은 최근에 비슷한 질문을 마감했습니다. 나는 주로 소프트웨어에 관한 것이기 때문에 내 질문은 주제와 관련이 없다고 들었습니다. 이것은 소프트웨어와 비슷한 것으로 보입니다. 여기서 규칙이 일관되지 않은 이유를 알고 싶습니다. 질문이 유익하다고 생각하지만 규칙은 규칙이어야합니다.
Weiwen Ng

답변:


8

늦었지만 올 수 있습니다. klaR ( http://cran.r-project.org/web/packages/klaR/index.html )

install.packages("klar")

이 변수 사이의 거리 δ 있도록 비 계층 K-모드, 거리 함수로서 간단한 매칭에 기초하는 알고리즘 사용하여 m 개의 데이터 포인트는 와 주어진다y엑스와이

δ(엑스미디엄,와이미디엄)={1엑스미디엄와이미디엄,0그렇지 않으면

패키지에 결함이 있습니다. 즉, 두 개의 데이터 포인트가 클러스터 중심과 동일한 거리를 갖는 경우 임의의 포인트가 아닌 데이터의 첫 번째 포인트가 선택되지만 코드의 비트를 쉽게 수정할 수 있습니다.

혼합 변수 클러스터링을 수용하려면 코드로 이동하여 거리 기능을 수정하여 숫자 및 비 숫자 모드 및 변수를 식별해야합니다.


7

혼합 유형의 변수를 처리하는 또 다른 매력적인 방법은 Random Forests ( http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf) 의 근접 / 유사성 매트릭스를 사용하는 것 입니다. 이것은 모든 변수를 동일하게 취급하는 통일 된 방법을 용이하게합니다 (그럼에도 불구하고 변수 선택 바이어스 문제를 알고 있습니다). 반면에 혼합 유형의 변수에 대한 거리를 정의하는 금의 보편적 인 방법은 실제로 없습니다. 모두 응용 프로그램 컨텍스트에 따라 다릅니다.


4

다중 대응 일치 분석을 사용하여 범주 형 변수에서 연속 치수를 만든 다음 두 번째 단계에서 숫자 변수와 함께이를 사용할 수 있습니다.


1
MCA에서 숫자 변수를 어떻게 처리 하시겠습니까? 이산화를 사용하십니까?
chl

연속 변수를 포함 할 수 MCA의 확장 예 균질성 분석 homals을 참조있다
할보 kjetil B

3

글쎄, 당신은 확실히 할 수 있습니다. 범주 형 변수를 인위적으로 숫자로 만듭니다. 또는 거리 매트릭스 기반 클러스터링을 사용하십시오 (fpc는 아마도 그렇게 할 수 있습니다). 먼저 대답해야 할 질문은 실제로 이해가됩니까?


3

제이케이

에스=나는=1나는,제이,케이에스나는,제이,케이나는=1나는,제이,케이
나는

나는,제이,케이

에스나는,제이,케이

  • 나는,제이,케이

  • 다중 상태 문자 (공칭 또는 서수) : 같으면 1, 그렇지 않으면 0 (단순 일치 계수와 동일)

  • 에스나는,제이,케이=1|엑스나는,제이엑스나는,케이|아르 자형나는아르 자형나는나는

에스

OTU 사이의 거리는 로 나타낼 수 있습니다1에스


답에서 "문자"(및 "기타 문자")를 정의 할 수 있습니까? 그것은 당신이 변수 / 속성 / 기능을 의미합니까? 게다가, 나는 ( "다중 상태") 명목으로 그들을 치료하지 않고 Gower의이 순서 변수에 대해 계산 될 수 있음을 추가 할 수 있습니다 참조 .
ttnphns

Caracter, variable, feature는 모두 동의어입니다. 추기경은 간격 또는 합리적인 척도를 의미합니다.
Engelbert Buxbaum

부딪쳐 주셔서 감사합니다. 방금 귀하의 용어가 통계 나 기계 학습에서 그리 일반적이지 않기 때문에 질문했습니다. "캐릭터"는 일반적이지 않으며, "기본"변수 유형은 일반적으로 "스케일"변수, "메트릭"변수로 알려져 있습니다. .
ttnphns

1

범주 형 변수의 가능한 값이 너무 많지 않으면 해당 값을 사용하여 이진 변수를 만들 수 있습니다. 이 이진 변수를 숫자 변수로 취급하고 클러스터링을 실행할 수 있습니다. 그것이 제가 프로젝트를 위해 한 일입니다.



0

VarSelLCM 패키지 상품

결 측값이있는 혼합 유형 데이터 세트의 모델 기반 클러스터링을위한 변수 선택

크랑 등을 설명 종이 .

이전 방법 중 일부는 클러스터 수를 선택하는 데 도움이되고 누락 된 데이터를 처리 할 수 ​​있다는 장점이 있습니다. 제공되는 멋진 반짝이는 응용 프로그램도 인상을 찌푸 리지 않습니다.

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.