다른 거리와 방법으로 얻은 계층 적 군집 덴드로 그램 비교

[초기 제목 "계층 적 클러스터링 트리의 유사성 측정"은 나중에 주제를 더 잘 반영하기 위해 @ttnphns에 의해 변경됨]

환자 기록의 데이터 프레임에서 여러 계층 적 클러스터 분석 을 수행하고 있습니다 (예 : http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y 와 유사 )

나무의 최종 군집 / 구조 /보기 (dendrogram)에 미치는 영향을 이해하기 위해 다른 거리 측정, 다른 매개 변수 가중치 및 다른 계층 적 방법으로 실험하고 있습니다 . 다른 계층 트리 간의 차이를 계산하기위한 표준 계산 / 측정이 있는지 여부와 R에서이를 구현하는 방법에 대한 질문 (예 : 일부 트리가 거의 동일하고 일부가 크게 다른지를 정량화하기 위해).

— 우터
소스

두 계층 적 (트리와 같은) 구조의 유사성을 비교하기 위해 cophenetic 상관 관계 아이디어를 기반으로하는 측정 값이 사용됩니다. 그러나 계층 적 군집화에서 "올바른"방법 또는 거리 측정을 선택하기 위해 덴드로 그램의 비교를 수행하는 것이 맞습니까?

숨겨진 그루터기 - - 몇 가지 포인트가 있습니다 내가 확실히 잡아 것이라고 계층 적 군집 분석에 관한 중요 :

다른 응집 방법으로 얻은 덴드로 그램을 시각적으로 비교하지 마십시오 ( 더 강한 파티션을 제공 하는 방법 을 선택 하기 위해 ). 어떤 방법이 "더 나은지"알 수 없습니다. 각 방법 에는 고유 한 "프로토 타입"트리 모양이 있습니다. 데이터에 클러스터 구조가 없거나 임의의 클러스터 구조가있는 경우에도 트리가 일관되게 달라집니다. (그리고 나는 이러한 본질적인 차이를 없애는 표준화 또는 측정이 있다고 생각합니다.) 그러나 동일한 방법이지만 다른 데이터로 생성 된 결과의 덴드로 그램 모양을 비교할 수 있습니다. Maxim : 다른 방법으로 덴드로 그램을 직접 비교하는 것은 용납 할 수 없습니다 .
Ward 방법 의 덴드로 그램을보고 클러스터 수 (즉, 나무를자를 위치)를 결정하지 마십시오 . Ward에서 트리는 평균적인 콜리 전 계수가 아닌 합계의 성장을 보여줍니다. 결과적으로 후기 군집은 점의 수만큼 커지기 때문에 후기 군집은 나무에서 "더 나은"것으로 잘못 보입니다. Ward의 덴드로 그램을 적절하게 표준화하려면 각 단계 의 계수 성장 을 결합되는 두 군집의 전체 점 수로 나눕니다 (표준화 된 Ward 덴드로 그램은 그래픽으로 구현하기 어려울 수 있음). $^1$ Maxim : 가능한 경우 덴드로 그램 모양을 고려하여 절단 레벨을 선택하는 것이 파티션을 선택하는 가장 좋은 방법은 아니며 일부 방법에서는 오해의 소지가 있습니다 . 대신 공식적인 내부 클러스터링 기준 을 사용하는 것이 좋습니다 .
아무도 당신이 거리 측정 또는 응집 방법으로 "실험"하는 것을 금지 할 수는 없지만, 눈먼 시도가 아닌 거리와 방법을 의식적 으로 선택하는 것이 좋습니다 . 거리는 당신이 관심있는 차이의 측면을 반영해야하며, 방법은 알고 있어야합니다-클러스터의 특정 아키타 입을 의미합니다 (예 : Ward 클러스터의 은유는 유형입니다 . 완전한 연결 후 클러스터는 일 원 [취미 플롯 작성자] 단일 결합 후의 클러스터가 될 스펙트럼 [체인] 중심에있어서 후의 클러스터가 될 플랫폼 근방 [정치] 평균 링크 클러스터가 개념적으로 가장 미분화하고 것이다 일반적으로 미국 클래스 ).
일부 방법 은 올바른 거리 측정 및 / 또는 올바른 유형의 데이터를 요구합니다. 예를 들어, 와드와 중심은 논리적으로 (제곱 된) 유클리드 거리를 필요로합니다. 이러한 방법은 유클리드 공간에서 중심을 계산하는 데 관여하기 때문입니다. 기하학적 중심의 계산은 예를 들어 이진 데이터와 일치하지 않습니다. 데이터는 스케일 / 연속적이어야합니다. Maxim : 데이터 / 거리 / 방법 가정 및 통신은 매우 중요하며 쉽지 않은 질문입니다.
거리 행렬을 계산하고 클러스터링을 수행하기 전의 전처리 (예 : 센터링, 스케일링 및 변수 / 기능의 다른 형태 변환)는 매우 중요한 문제입니다. 결과에 큰 영향을 줄 수 있습니다. 어떤 전처리가 도움이 될 수 있으며 해석의 관점에서 이해가 될지 생각해보십시오. 또한 클러스터 분석을 시도하기 전에 데이터를 그래픽으로주의 깊게 검사하는 것을 부끄러워하지 마십시오.
모든 집단 응집 클러스터링 방법이 철학적 근거에서 계층 적 분류 를 제공하는 것으로 똑같이 볼 수있는 것은 아닙니다 . 예를 들어, 중심점 방법은 클러스터 센터가 출현하고 클러스터 전체를 정의하는 기능이며, 클러스터 병합은 해당 기능에 의해 구동 되기 때문에 계층 구조를 의미 합니다. 전체 연결, 다른 한편으로는, "일축"두 하위 클러스터 것은 그들을 병합 할 때 - 사이 거리를 덕분에 개별 두 물체. 따라서 완전한 연계 덴드로 그램은 단지 수집 의 역사 일 뿐이며 부모-자녀 종류의 분류법이 아닙니다 .Maxim : 계층 적 집단 클러스터 분석은 일반적으로 결과를 계층 적 분류법으로보기보다는 결과를 기반으로 파티션을 만들 것으로 예상합니다.
계층 적 군집화는 일반적인 욕심 알고리즘 으로, 결국 최적의 솔루션에 가까워지기 위해 각 단계에 나타나는 대안 중에서 최선의 선택을합니다. 그러나 높은 수준의 단계에서 나타나는 "최상의"선택은 해당 단계에서 이론적으로 가능한 전역 최적보다 나빠질 수 있습니다. 단계가 클수록 일반적으로 차선책이 커집니다. 일반적으로 클러스터를 거의 원하지 않기 때문에 마지막 단계가 중요합니다. 방금 말했듯이 단계 수가 많으면 (예 : 천 단계) 상대적으로 열악한 것으로 예상됩니다. 그렇기 때문에 프로그램이 거리 행렬을 처리 할 수있는 경우에도 대량의 객체 샘플 (수천 개의 객체) 에는 일반적으로 계층 적 클러스터링이 권장 되지 않습니다 .

위의 예방 조치를 취한 후에도 계층 분류 간 유사성 측정을 원한다고 생각하면 '덴드로 그램 비교'와 '계층 분류 비교'에 대해 Google에서 검색 할 수 있습니다. 하나는 대부분의 아이디어 cophenetic 상관 관계에 기반 할 수있다 자신을 제안 : 동일한 데이터 집합이 dendrograms을 가진 n 개의 개체 수 있도록 개체의 모든 쌍 사이 colligation의 계수가 (또는 어쩌면 그 순위, 스텝 번호)가 될 ij를 에 하나의 덴드로 그램과 도 다른 덴드로 그램에서 동일합니다. 계산 상관 또는 코사인. $X_{ij}$ $Y_{ij}$

$^1$ Wards 방법 의 덴드로 그램 문제에 대한 최신 업데이트 . 다른 군집 프로그램은 Ward의 방법에 대해 다르게 변환 된 aglomeration 계수를 출력 할 수 있습니다. 따라서 이들의 덴드로 그램은 군집 이력과 결과가 동일 함에도 불구하고 다소 다르게 보일 것 입니다. 예를 들어 SPSS는 초음파 계수에서 근본을 취하지 않고 출력에서 누적합니다. 예를 들어 일부 R 패키지에서 볼 수있는 또 다른 전통은 루트 ( "Ward-2" 라고 함)를 취하는 것입니다.구현하지 말고 누적하지 마십시오. 다시 반복하기 위해, 이러한 차이는 클러스터링 결과가 아니라 덴드로 그램의 일반적인 모양 / 모양에만 영향을 미칩니다. 그러나 덴드로 그램의 모양은 군집 수에 대한 결정에 영향을 줄 수 있습니다. 도덕은 프로그램에서 이러한 계수가 무엇인지 정확하게 해석하지 않는 한 Ward의 방법으로 덴드로 그램에 의존하지 않는 것이 안전하다는 것입니다.

— ttnphns
소스

나는이 모든 것을 거의 두 번째로 할 수있다. 내가 추가하고 싶은 두 가지 사항 : A) 당신이하는 것처럼 보이는 것은 일종의 과적 합 입니다. 측정 값, 가중치 및 방법을 체계적으로 평가하면 최종 매개 변수가 현재 데이터에 대해 매우 구체적 일 수 있으며 다른 데이터 나 이후 데이터에는 쓸모가 없을 수 있습니다. B) 덴드로 그램의 유사성을 아는 것이 얼마나 좋은가. 나중에 그들과 함께하고 싶은 일을 고려한 다음 최종 결과를 평가 해보십시오. 중간 결과를 평가하는 것은 잘못된 것일 수 있습니다.

— 익명-무스

이 주제에 여전히 관심이 있다면 DS SE에 대한 최근 답변이 도움 이 될 것이라고 생각했습니다 . 특히 계층 적 주제 모델에 대한 잦은주의 와 베이지안 접근 방식 (포함 된 클래스 정보 포함)에 대한 범위를 제한적으로 제공하기 때문에 특히 유용합니다. 그리고 유사성 측정 선택 .

— Aleksandr Blekh

@ttnphns, "계수 계수"를 사용하여 두 계층 적 분류를 비교하는 방법에 대해 자세히 설명해 주시겠습니까?

— bassir