계층 적 군집 분석의 덴드로 그램을 해석하는 방법


25

아래의 R 예를 고려하십시오.

plot( hclust(dist(USArrests), "ave") )
  1. y 축 "높이"는 정확히 무엇을 의미합니까?

  2. 노스 캐롤라이나와 캘리포니아 (왼쪽이 아닌)를 봅니다. 캘리포니아는 애리조나보다 노스 캐롤라이나와 "가까이"있습니까? 이 해석을 할 수 있습니까?

  3. 하와이 (오른쪽)가 클러스터에 다소 늦게 참여합니다. 다른 주보다 "높은"것으로 볼 수 있습니다. 일반적으로 덴드로 그램에서 레이블이 "높은"또는 "낮은"사실을 어떻게 해석 할 수 있습니까?

여기에 이미지 설명을 입력하십시오


1
의 답변 ?hclust.
Scortchi-Monica Monica 복원

3
레이블의 위치는 의미가 없습니다. y 축을 이해하지 못하면 계층 적 군집을 잘 이해한다는 인상을 받았다는 것이 이상합니다.
Stéphane Laurent

1
또한 계층 적 클러스터링은 일반적으로 계층 적 (트리) 분류를 제공 하지 않습니다 . 특히 사용한 평균 방법이 아닙니다. 마지막 요점을 참조 하십시오 .
ttnphns 2012 년

1
레이블의 위치는 약간의 의미가 있습니다. 위치가 높을수록 객체가 나중에 다른 객체와 연결되므로 이상치 또는 길 잃은 것입니다.
ttnphns 2012 년

3
@ StéphaneLaurent이 소리는 모순처럼 들립니다. 나는 여전히 내가 알고있는 데이터의 덴도 그램을 인터 페트 할 수 있다고 생각한다. 또한 ttnphns와 Peter Flom이 지적한 것처럼 lables의 위치는 약간의 의미가 있습니다. 마지막으로 귀하의 의견은 건설적이지 않았습니다.
Ric

답변:


17

1) y 축은 개별 데이터 포인트 또는 클러스터의 근접성을 측정 한 것입니다.

2) 플로리다와 합류하기 전에 CA와 AZ가 클러스터에 있기 때문에 캘리포니아와 애리조나는 플로리다와 먼 거리에 있습니다.

3) 하와이는 다소 늦게 참여합니다. 즉, 결합하는 클러스터가 HI 결합 전에 서로 가깝습니다. 그러나 그리 가깝지는 않습니다. 클러스터가 결합하는 클러스터 (오른쪽 끝)는 약 45에서 형성됩니다. HI가 다른 상태보다 늦게 클러스터에 참여한다는 사실은 단순히 선택한 메트릭을 사용하여 HI가 특정 상태.


따라서 "높이"는 링크 기준의 가치에 대한 아이디어를 제공합니다 ( 여기서 와 같이 ). 이게 옳은 거니? 감사!
Ric

는 Y 축이 측정되지는 DIS 클러스터와 포인트 사이의 유사성? 즉, @PeterFlom 주위에서 다른 방식이 아니라 가장 유사하지 않을 때 가장 큰 것이기 때문에 부정적입니다.
Felipe Almeida

21

계층 적 클러스터링을 배우려고 할 때도 같은 질문이 있었고 다음 pdf가 매우 유용하다는 것을 알았습니다.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Richard가 절차에 대해 이미 명확하더라도 질문을 탐색하는 다른 사람들은 수학 배경이 충분하지 않은 사람들을 위해 매우 간단하고 명확한 pdf를 사용할 수 있습니다.


3
연결된 PDF가 매우 좋다는 것을 반복하고 싶습니다.
Heisenberg

참조 : Klimberg, Ronald K. 및 BD McCullough. JMP를 이용한 예측 분석의 기초 에서 "제 7 장 : 계층 적 군집 분석." 캐리, 노스 캐롤라이나 : SAS Institute.
jay.sf

1

가로 축은 클러스터를 나타냅니다. 덴드로 그램의 수직 스케일은 거리 또는 비 유사성을 나타냅니다. 두 개의 클러스터의 각 결합 (융합)은 수직선을 두 개의 수직선으로 분할하여 다이어그램에 표시됩니다. 짧은 막대로 표시된 분할의 수직 위치는 두 군집 사이의 거리 (비 유사성)를 나타냅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.