혼합 유형 데이터를 사용한 계층 적 클러스터링-어떤 거리 / 유사성을 사용해야합니까?


34

내 데이터 세트에는 연속 및 자연 이산 변수가 있습니다. 두 가지 유형의 변수를 모두 사용하여 계층 적 클러스터링을 수행 할 수 있는지 알고 싶습니다. 그렇다면, 어떤 거리 측정이 적절한가?


어떤 소프트웨어를 사용하고 있습니까?
rolando2

@ rolando2 : R (hclus 패키지)을 사용하고 있습니다.
Beta

1
계층 적 클러스터링을 사용하는 이유가 있습니까?
suncoolsu

나 나는 단지 나의 지식을 위해서이 질문을한다. 데이터 형식이 혼합되어있을 때 계층 적으로 수행 할 수 있습니까? 그렇다면 왜 그렇습니까? 아니라면 왜?
Beta

@ user4278 글쎄, 당신의 목표 무엇 입니까? (개인의) 클러스터를 식별하려고하십니까?
chl

답변:


45

한 가지 방법은 복합 측정 Gower 유사성 계수 를 사용 하는 것입니다 . 정량적 (예 : 등급 척도), 이진 (예 / 없음) 및 공칭 (예 : 작업자 / 교사 / 서기) 변수가 필요합니다. 나중에 Podani 는 서수 변수를 취하는 옵션을 추가했습니다.122

공식 없이도 계수를 쉽게 이해할 수 있습니다. 변수 유형을 고려하여 각 변수별로 개인 간의 유사성 값을 계산 한 다음 모든 변수의 평균을 계산합니다. 일반적으로 Gower를 계산하는 프로그램을 사용하면 변수, 즉 변수의 기여도를 복합 수식에 가중치를 적용 할 수 있습니다. 그러나 다른 유형 의 변수에 대한 적절한 가중치를 부여 하는 것은 문제가 되고 명확한 지침이 없으므로 Gower 또는 근접성에 대한 다른 "복합"지수가 직면하게됩니다.

고 우어 유사성의 측면 ( ) :GS

  • 모든 변수가 정량적 (간격) 인 경우 계수는 유사도로 변환 된 범위 정규화 된 맨해튼 거리 입니다. 다른 단위의 정규화 변수 때문에 안전하게 사용할 수 있습니다. 그러나 특이 치를 잊어서는 안됩니다. (범위보다 다른 스프레드 측정으로 정규화하기로 결정할 수도 있습니다.) 데이터 집합에서 개인의 구성에 민감한 범위와 같은 통계에 의한 상기 정규화로 인해 일부 두 개인의 Gower 유사성이 값을 변경시킬 수 있습니다 데이터에서 다른 개인을 제거하거나 추가하는 경우
  • 모든 변수가 순서 형인 경우 먼저 순위가 매겨지고 위와 같이 정량적 변수를 사용하지만 관계에 대한 특수 조정을 사용하여 맨해튼이 계산됩니다.
  • 모든 변수가 2 진 (카테고리의 비대칭 적 의미 : "present"대 "absent"속성) 인 경우 계수는 Jaccard 일치 계수입니다 (이 계수는 두 개인 모두 속성이 일치하지 않거나 일치하지 않는 것으로 취급 함).
  • 모든 변수가 공칭 일 때 (여기서 대칭 의미를 가진 이분법도 포함 : "this"vs "that") 계수는 더미 변수로 코드화 할 때 공칭 변수에서 얻는 주사위 매칭 계수입니다 (자세한 내용은 이 답변 참조). .

(유형 목록을 쉽게 확장 할 수 있습니다. 예를 들어, 유사성으로 변환 된 정규화 된 카이 제곱 거리를 사용하여 카운트 변수에 대한 요약을 추가 할 수 있습니다.)

계수의 범위는 0과 1입니다.

"고 우어 거리 ". 서수 변수가없는 경우 (즉, Podani의 옵션을 사용하지 않고) 는 유클리드 거리처럼 동작하므로 유클리드 공간을 완전히 지원합니다. 그러나 는 유클리드가 아니라 메트릭 (삼각 불평등을 지원) 일뿐입니다. 서수 변수가있는 경우 (Podani의 옵션 사용) 는 유클리드가 아닌 메트릭 일뿐입니다. 및 전혀 메트릭이 아니다. 도 참조하십시오 .1GS1GS1GS1GS

유클리드 거리 (유클리드 공간을 지원하는 거리)를 사용하면 거의 모든 클래식 클러스터링 기술이 적용됩니다. K- 평균 포함 (물론 K- 평균 프로그램이 거리 행렬을 처리 할 수있는 경우) 및 Ward, centroid, 중간 계층 적 군집 방법 포함 . 비-유클리드 스틸 메트릭 거리를 갖는 유클리드 거리에 기초한 K- 평균 또는 다른 방법을 사용하는 것은 아마도 발견 적으로 허용 될 수있다. 비 메트릭 거리에서는 그러한 방법을 사용할 수 없습니다.

이전 단락에서는 K- 평균 또는 Ward 또는 이러한 군집이 합법적인지 또는 Gower 거리와 수학적으로 (지오메트리) 없는지에 대해 설명 합니다. 로부터 측정 스케일 ( "심리")보기 하나의 포인트는 범주에서의 평균 또는 유클리드 거리 편차 (공칭 이진뿐만 아니라 서수) 데이터를 계산 안된다; 따라서에서 자세는 단지 이러한 관점은 유클리드 공간이 존재하더라도 그것이 과립 화 될 수 있음을 경고하고, 구 등 K-의해 Gower의 계수를 처리 할 수 있고, 부드럽 지 ( 관련 참조 ).


1 Gower JC 일반적인 유사성 계수 및 일부 속성 // Biometrics, 1971, 27, 857-872

2 Podani, J. 서수와 고 우어의 일반 유사도 확장 // Taxon, 1999, 48, 331-340


감사합니다 ttnphns! "Gower 유사성 계수"가 R의 hclus 패키지에 통합되어 있다고 말할 수 있습니까? 이 기능을 가진 패키지가 R에 있습니까?
Beta

나는 R 사용자가 아니므로 몰라서 hclus에서 찾을 것이라고 생각하지 않습니다. 그러나 Google "Gower similarity R"을 사용하면 필요한 것을 찾을 수 있습니다!
ttnphns

user4278, SPSS를 피하지 않는 경우 웹 페이지에 Gower 유사성에 대한 매크로가 있습니다. 가중치 및 누락 된 데이터를 허용합니다.
ttnphns

@ user4278 R에 대해 구체적으로 여기에서 시작하십시오. cran.r-project.org/web/views/Environmetrics.html
chl

@ttnphns : 감사합니다! 나는 당신을 웹 사이트를 방문했고 그것은 SPSS를위한 훌륭한 자원입니다. 그러나 불행히도 SPSS를 너무 많이 사용하지 않습니다. 그러나 R. @ chl에 아무것도 없으면 반드시 사용하겠습니다. 감사합니다! 그러나 그것은 큰 목록입니다. 클러스터 패키지의 데이지가 Gower 유사성의 기능을 가지고있는 곳을 읽었습니다.
Beta

15

이 질문에 발견하고 사용하는 다운로드 어떤 패키지를 궁금해하는 경우 R의 Gower의 메트릭cluster패키지라는 이름의 함수가 데이지 () 기본적으로 사용 가워의 변수의 혼합 유형이 사용될 때마다 메트릭. 또는 Gower 메트릭을 사용하도록 수동으로 설정할 수 있습니다.

daisy(x, metric = c("euclidean", "manhattan", "gower"),
      stand = FALSE, type = list(), weights = rep.int(1, p))

4
Zhubarb의 대답더하여 , 데이터 세트 에서 모든 쌍 사이의 Gower 거리를 원하면 R 패키지를 참조하십시오 StatMatch.
James Hirschorn
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.