내 데이터 세트에는 연속 및 자연 이산 변수가 있습니다. 두 가지 유형의 변수를 모두 사용하여 계층 적 클러스터링을 수행 할 수 있는지 알고 싶습니다. 그렇다면, 어떤 거리 측정이 적절한가?
내 데이터 세트에는 연속 및 자연 이산 변수가 있습니다. 두 가지 유형의 변수를 모두 사용하여 계층 적 클러스터링을 수행 할 수 있는지 알고 싶습니다. 그렇다면, 어떤 거리 측정이 적절한가?
답변:
한 가지 방법은 복합 측정 Gower 유사성 계수 를 사용 하는 것입니다 . 정량적 (예 : 등급 척도), 이진 (예 / 없음) 및 공칭 (예 : 작업자 / 교사 / 서기) 변수가 필요합니다. 나중에 Podani 는 서수 변수를 취하는 옵션을 추가했습니다.2
공식 없이도 계수를 쉽게 이해할 수 있습니다. 변수 유형을 고려하여 각 변수별로 개인 간의 유사성 값을 계산 한 다음 모든 변수의 평균을 계산합니다. 일반적으로 Gower를 계산하는 프로그램을 사용하면 변수, 즉 변수의 기여도를 복합 수식에 가중치를 적용 할 수 있습니다. 그러나 다른 유형 의 변수에 대한 적절한 가중치를 부여 하는 것은 문제가 되고 명확한 지침이 없으므로 Gower 또는 근접성에 대한 다른 "복합"지수가 직면하게됩니다.
고 우어 유사성의 측면 ( ) :
(유형 목록을 쉽게 확장 할 수 있습니다. 예를 들어, 유사성으로 변환 된 정규화 된 카이 제곱 거리를 사용하여 카운트 변수에 대한 요약을 추가 할 수 있습니다.)
계수의 범위는 0과 1입니다.
"고 우어 거리 ". 서수 변수가없는 경우 (즉, Podani의 옵션을 사용하지 않고) 는 유클리드 거리처럼 동작하므로 유클리드 공간을 완전히 지원합니다. 그러나 는 유클리드가 아니라 메트릭 (삼각 불평등을 지원) 일뿐입니다. 서수 변수가있는 경우 (Podani의 옵션 사용) 는 유클리드가 아닌 메트릭 일뿐입니다. 및 전혀 메트릭이 아니다. 도 참조하십시오 .
유클리드 거리 (유클리드 공간을 지원하는 거리)를 사용하면 거의 모든 클래식 클러스터링 기술이 적용됩니다. K- 평균 포함 (물론 K- 평균 프로그램이 거리 행렬을 처리 할 수있는 경우) 및 Ward, centroid, 중간 계층 적 군집 방법 포함 . 비-유클리드 스틸 메트릭 거리를 갖는 유클리드 거리에 기초한 K- 평균 또는 다른 방법을 사용하는 것은 아마도 발견 적으로 허용 될 수있다. 비 메트릭 거리에서는 그러한 방법을 사용할 수 없습니다.
이전 단락에서는 K- 평균 또는 Ward 또는 이러한 군집이 합법적인지 또는 Gower 거리와 수학적으로 (지오메트리) 없는지에 대해 설명 합니다. 로부터 측정 스케일 ( "심리")보기 하나의 포인트는 범주에서의 평균 또는 유클리드 거리 편차 (공칭 이진뿐만 아니라 서수) 데이터를 계산 안된다; 따라서에서 이 자세는 단지 이러한 관점은 유클리드 공간이 존재하더라도 그것이 과립 화 될 수 있음을 경고하고, 구 등 K-의해 Gower의 계수를 처리 할 수 있고, 부드럽 지 ( 관련 참조 ).
Gower JC 일반적인 유사성 계수 및 일부 속성 // Biometrics, 1971, 27, 857-872
Podani, J. 서수와 고 우어의 일반 유사도 확장 // Taxon, 1999, 48, 331-340
이 질문에 발견하고 사용하는 다운로드 어떤 패키지를 궁금해하는 경우 R의 Gower의 메트릭 의 cluster
패키지라는 이름의 함수가 데이지 () 기본적으로 사용 가워의 변수의 혼합 유형이 사용될 때마다 메트릭. 또는 Gower 메트릭을 사용하도록 수동으로 설정할 수 있습니다.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))