hclust ()의 ward.D가 Ward의 기준이 아닌 경우 어떤 알고리즘을 구현합니까?


16

"ward.D"옵션 (R 버전 <= 3.0.3의 유일한 Ward 옵션 "ward"와 동일)이 사용하는 것은 Ward의 (1963) 클러스터링 기준을 구현하지 않지만 "ward.D2"옵션은 해당 기준을 구현합니다 ( Murtagh and Legendre 2014).

( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html )

분명히 와드 .D는 와드의 기준을 제대로 이행하지 못한다. 그럼에도 불구하고 그것이 생성하는 클러스터링과 관련하여 좋은 일을하는 것처럼 보입니다. method = "ward.D"가 Ward의 기준이 아닌 경우 어떻게 구현합니까?

참고 문헌

Murtagh, F. & Legendre, P. (2014). 워드의 계층 적 집단 클러스터링 방법 : 워드의 기준을 구현하는 알고리즘은 무엇입니까? 분류의 전표 , 31 (3), 274-295.


Murthagh와 Legendre 논문은 이것에 대해 아무 말도하지 않습니까?
cbeleites는 Monica

나는 그 논문에 접근 할 수 없다
Raffael

u 몬트리올에서 원고의 pdf가 나에게 가장 먼저 검색됩니다!?
cbeleites는 Monica

그래서 종이는 무엇을 말합니까? 난 그것을 찾을 수 없습니다
Raffael

그것이 내가 당신에게 우리에게 말한 것입니다.
cbeleites는 Monica

답변:


11

관련 원고는 여기에 있습니다 .

ward.D와 ward.D2의 차이점은 원고에서 Ward1과 Ward2라고하는 두 군집 기준의 차이입니다.

기본적으로 Ward 알고리즘은 Ward2 (ward.D2)에서 직접 올바르게 구현된다는 사실로 요약되지만, Euclidean 거리 (에서 from dist())가 제곱 된 경우 Ward1 (ward.D)도 사용할 수 있습니다 . hclust()ward.D를 방법으로 사용합니다.

예를 들어 SPSS는 Ward1도 구현하지만 사용자에게 Ward 기준을 획득하려면 거리를 제곱해야한다고 경고합니다. 이러한 의미에서 ward.D의 구현은 사용되지 않으며 그럼에도 불구하고 이전 버전과의 호환성을 위해 유지하는 것이 좋습니다.      


2
종이에서 그렇지 않은 다음에 당신은 링크 Ward algorithm is directly correctly implemented in just Ward2, 오히려 것을 : 모두 구현과 정확한 결과를 얻기 위해 (1), 사용 Ward2와 Ward1 및 nonsquared 유클리드 거리와 유클리드 거리를 제곱; (2) 출력 덴드로 그램을 더 유사하게 (동일한) 만들기 위해, 덴드로 그램을 구성하기 전에 Ward1 이후 퓨전 레벨 또는 Ward2 이후 제곱 퓨전 레벨에 제곱근을 적용하십시오.
ttnphns

물론 그렇습니다. 설명 주셔서 감사합니다. "직접적으로 올바르게 구현되었다"는 것은 ward.D2 메소드를 사용하여 올바른 결과를 얻기 위해 높이의 제곱근을 취하는 등의 추가 단계가 필요하지 않다는 것입니다.
JTT

1
여기에서 가장 작은 뉘앙스는 Ward의 방법을 사용하여 "비 제곱"또는 "제곱"으로 표시해야하는지 여부에 따라 "정확한"또는 실제 융합 레벨 표시가 무엇인지 정의 되지 않는다는 것입니다. 불확실성의 원인은 Ward의 핵융합 수준이 거리 가 아니고 증분 분산 이기 때문 입니다.
ttnphns

9

ward.D& 의 유일한 차이점 ward.D2은 입력 매개 변수입니다.

hclust(dist(x)^2,method="ward.D") ~ hclust(dist(x)^2,method="ward")

이는 다음과 같습니다. hclust(dist(x),method="ward.D2")

reserach 논문을 찾을 수 있습니다 : Ward의 계층 적 군집화 방법 : 군집 기준 및 집약적 알고리즘

Ward2의 기준 값은 '있는 거리의 규모에 반면 " Ward1의 기준 값은'있는 거리의 크기의 제곱에 ".


나는 다른 사람이 와드를 암시하는 것처럼이 대답을 선호한다. D는 틀렸다. 그냥 다릅니다.
Chris

6

나는 연구 논문을 통해 나니 "Ward1 (ward.D)"에 의해 최적화되는 목적 함수에 해당 합작을 통해 계층 적 클러스터링 사이-이내 거리 : 워드의 최소 분산 방법을 확장 . R의 "Ward1 (ward.D)"구현은 클러스터 그룹 간의 에너지 거리를 최소화하는 것과 같습니다.

2.1 클러스터 이자형거리와 목적 함수

허락하다 ={1,,1}={1,,2} 비어 있지 않은 부분 집합 아르 자형. 군간을 정의하거나이자형-거리 이자형(,)사이 같이

이자형(,)=121+2(212나는=11제이=12나는제이(1)112나는=11제이=11나는제이122나는=12제이=12나는제이).

이것이 해당 논문의 내용을 올바르게 해석 한 것입니까? 그것은 나에게 보인다이자형(2)에 해당 ward.D2하지만 어디에도 언급되어 있지 않다고 생각합니다.이자형(1)에 해당합니다 ward.D1. 실제로 161–162 페이지에서0<α<2, 이자형(α)않습니다 하지 클러스터 크기보다 더 큰 가정, 유클리드 거리의 전력에 해당1 . Interesting paper none the less.
Jonas Dahlbæk
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.