계층 적 군집이 유효하기 위해서는 거리가 "메트릭"이어야합니까?


9

N 개의 항목 사이 의 거리 ( 메트릭 이 아님)를 정의한다고 가정하겠습니다 .

이 거리를 바탕으로 우리는 집단 계층 적 군집 을 사용 합니다 .

의미있는 결과를 얻기 위해 알려진 각 알고리즘 (단일 / 최대 / 평균 연결 등)을 사용할 수 있습니까? 다르게 말하면, 거리가 미터가 아닌 경우이를 사용하는 데 어떤 문제가 있습니까?


귀하의 경우에 "항목"은 무엇입니까? (이 경우 심리 측정과 관련이 있는지 묻습니다. 항목 클러스터링 또는 Revelle, W. 계층 적 군집 분석 및 내부 테스트 구조 , MBR (1979) 14 참조) : 57.)
chl

답변:


7

거리에 대한 요구 사항은 계층 적 군집 방법에 따라 다릅니다. 단일의 완전한 평균 방법은 거리가 음이 아니고 대칭이되어야합니다. 와드, 중심, 중앙값 방법은 기하학적으로 의미있는 결과를 생성하기 위해 (제곱) 유클리드 거리 (메트릭보다 정의가 더 좁음)가 필요합니다.

(그녀의 거리 행렬이 이중으로 중심을 이루고 ( 여기서 나의 답장 참조) 고유 값을 보면 유클리드인지 확인할 수 있습니다 . 음의 고유 값이 없으면 거리가 유클리드 공간에 수렴합니다.)


감사. 추가 질문 : 삼각형 불평등은 단일의 완전한 평균 방법을 유지해야합니까? 그리고 만약 거리가 대칭 적이 지 않다면,이 방법들에 어떤 문제가 있습니까? (감사합니다!)
Tal Galili

1
고전적인 계층 적 클러스터링 방법 대칭 행렬을 취할 수 있습니다 : A에서 B까지의 거리 = B에서 A까지의 거리. 비대칭을 다루기 위해 특별한 다른 방법이 있습니다 (구글 수 있습니다). 삼각 불평등에 관해서는 언급 한 방법에 필요한 조건이 아닙니다. (그러나 일반적인 통념은 "거리"를 불평등이있는 것으로 생각하기 때문에 그것이 빠지면 그것을 부과하는 것을 고려해 볼 가치가 있습니다. 그렇게하기 위해, 거리에 작은 상수를 반복적으로 추가하고 점검하십시오. 그러면 곧 유클리드 거리에 도착할 것입니다)
ttnphns

5

아니요, 거리가 미터 일 필요는 없습니다. 예를 들어 울트라 메트릭 일 수 있습니다.

(,)최대((,),(,))

군집 알고리즘의 연속적인 단계에서 얻은 초음파 거리는 덴드로 그램을 사용하여 표현할 수 있습니다.


홍콩 감사합니다. 나는 일부 물체를 hclust로 변환하는 방법이 덴드로 그램이 초고속임을 요구한다는 것을 기억합니다. 어쨌든 답을 주셔서 감사합니다.
탈 Galili
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.