R을 사용한 혼합 유형 데이터 클러스터링

19

혼합 된 데이터 변수가있는 데이터의 클러스터링을 R 내에서 수행 할 수 있는지 궁금합니다. 즉, 숫자 및 범주 형 변수가 모두 포함 된 데이터 세트가 있으며 변수를 묶는 가장 좋은 방법을 찾고 있습니다. SPSS에서는 2 단계 클러스터를 사용합니다. R에서 비슷한 기술을 찾을 수 있는지 궁금합니다. poLCA 패키지에 대해 들었지만 확실하지 않습니다 ...

r clustering mixed-type-data

— 조르지오 스페 디카 토
소스

1

SPSS TwoStep이 대용량 데이터 세트를 처리하도록 설계 되지 않았 습니까? ( 여기서는 관련 질문에 대한 답변을 제공합니다 .) 그렇지 않은 경우 주성분 분석이 연속 변수와 범주 변수가 혼합 된 데이터 세트에 적용될 수 있습니까? 도움이 필요하십니까?

— chl

R 패키지 클러스터 에는 혼합 데이터에 대한 비 유사성 매트릭스 (고어 유사성 계수)를 생성하는 데이지 가 있습니다. 그런 다음 ? agnes 또는 다른 클러스터링 기능을 사용할 수 있습니다 .

— rhonda

1

메소드를 구현과 혼동하지 마십시오. 먼저 말이되는 클러스터링 알고리즘을 찾으십시오. 그런 다음 이를 구현하는 R 패키지를 찾으십시오.

— shadowtalker

고 우어 유사성 이 사용될 수있다.

— ttnphns

@gung은 최근에 비슷한 질문을 마감했습니다. 나는 주로 소프트웨어에 관한 것이기 때문에 내 질문은 주제와 관련이 없다고 들었습니다. 이것은 소프트웨어와 비슷한 것으로 보입니다. 여기서 규칙이 일관되지 않은 이유를 알고 싶습니다. 질문이 유익하다고 생각하지만 규칙은 규칙이어야합니다.

— Weiwen Ng

8

늦었지만 올 수 있습니다. klaR ( http://cran.r-project.org/web/packages/klaR/index.html )

install.packages("klar")

이 변수 사이의 거리 δ 있도록 비 계층 K-모드, 거리 함수로서 간단한 매칭에 기초하는 알고리즘 사용하여 m 개의 데이터 포인트는 와 주어진다 $x$ $y$

δ ({엑스}_{미디엄}, {와이}_{미디엄}) = {\begin{cases} 1 & {엑스}_{미디엄} \neq {와이}_{미디엄}, \\ 0 & 그렇지 않으면 \end{cases}

$\delta(x_m,y_m) = \begin{cases} 1 & x_m \neq y_m,\\ 0 & \text{otherwise} \end{cases}$

패키지에 결함이 있습니다. 즉, 두 개의 데이터 포인트가 클러스터 중심과 동일한 거리를 갖는 경우 임의의 포인트가 아닌 데이터의 첫 번째 포인트가 선택되지만 코드의 비트를 쉽게 수정할 수 있습니다.

혼합 변수 클러스터링을 수용하려면 코드로 이동하여 거리 기능을 수정하여 숫자 및 비 숫자 모드 및 변수를 식별해야합니다.

— victor_v
소스

7

혼합 유형의 변수를 처리하는 또 다른 매력적인 방법은 Random Forests ( http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf) 의 근접 / 유사성 매트릭스를 사용하는 것 입니다. 이것은 모든 변수를 동일하게 취급하는 통일 된 방법을 용이하게합니다 (그럼에도 불구하고 변수 선택 바이어스 문제를 알고 있습니다). 반면에 혼합 유형의 변수에 대한 거리를 정의하는 금의 보편적 인 방법은 실제로 없습니다. 모두 응용 프로그램 컨텍스트에 따라 다릅니다.

— XGS
소스

4

다중 대응 일치 분석을 사용하여 범주 형 변수에서 연속 치수를 만든 다음 두 번째 단계에서 숫자 변수와 함께이를 사용할 수 있습니다.

— ftr
소스

1

MCA에서 숫자 변수를 어떻게 처리 하시겠습니까? 이산화를 사용하십니까?

— chl

연속 변수를 포함 할 수 MCA의 확장 예 균질성 분석 homals을 참조있다

— 할보 kjetil B

3

글쎄, 당신은 확실히 할 수 있습니다. 범주 형 변수를 인위적으로 숫자로 만듭니다. 또는 거리 매트릭스 기반 클러스터링을 사용하십시오 (fpc는 아마도 그렇게 할 수 있습니다). 먼저 대답해야 할 질문은 실제로 이해가됩니까?

— 익명-무스-복지국 모니카
소스

3

$j$ $k$

{에스}_{지} = \frac{\sum_{나는 = 1}^{엔} 승_{나는, 제이, 케이} {에스}_{나는, 제이, 케이}}{\sum_{나는 = 1}^{엔} 승_{나는, 제이, 케이}}

$S_G = \frac{\sum_{i=1}^n{w_{i,j,k} s_{i,j,k}}}{\sum_{i=1}^n{w_{i,j,k}}}$

i

$i$

$w_{i,j,k}$

$s_{i,j,k}$

$w_{i,j,k}$
다중 상태 문자 (공칭 또는 서수) : 같으면 1, 그렇지 않으면 0 (단순 일치 계수와 동일)
$s_{i,j,k} = 1 - \frac{|X_{i,j} - X_{i,k}|}{R_i}$ $R_i$ $i$

$S_G$

OTU 사이의 거리는 로 나타낼 수 있습니다 $\sqrt{1-S_G}$

— 엥겔 베르트 벅스 바움
소스

답에서 "문자"(및 "기타 문자")를 정의 할 수 있습니까? 그것은 당신이 변수 / 속성 / 기능을 의미합니까? 게다가, 나는 ( "다중 상태") 명목으로 그들을 치료하지 않고 Gower의이 순서 변수에 대해 계산 될 수 있음을 추가 할 수 있습니다 참조 .

— ttnphns

Caracter, variable, feature는 모두 동의어입니다. 추기경은 간격 또는 합리적인 척도를 의미합니다.

— Engelbert Buxbaum

부딪쳐 주셔서 감사합니다. 방금 귀하의 용어가 통계 나 기계 학습에서 그리 일반적이지 않기 때문에 질문했습니다. "캐릭터"는 일반적이지 않으며, "기본"변수 유형은 일반적으로 "스케일"변수, "메트릭"변수로 알려져 있습니다. .

— ttnphns

1

범주 형 변수의 가능한 값이 너무 많지 않으면 해당 값을 사용하여 이진 변수를 만들 수 있습니다. 이 이진 변수를 숫자 변수로 취급하고 클러스터링을 실행할 수 있습니다. 그것이 제가 프로젝트를 위해 한 일입니다.

— 라그 벤드 라
소스

1

k 프로토 타입 클러스터링이 여기에 더 적합 할 수 있습니다. k- 모드와 k- 평균을 결합하여 혼합 된 수치 / 범주 데이터를 군집화 할 수 있습니다. R의 경우 'clustMixType'패키지를 사용하십시오.

https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf

— 프라 샨스
소스

0

VarSelLCM 패키지 상품

결 측값이있는 혼합 유형 데이터 세트의 모델 기반 클러스터링을위한 변수 선택

에 크랑 등을 설명 종이 .

이전 방법 중 일부는 클러스터 수를 선택하는 데 도움이되고 누락 된 데이터를 처리 할 수 있다는 장점이 있습니다. 제공되는 멋진 반짝이는 응용 프로그램도 인상을 찌푸 리지 않습니다.

— 라 데크
소스