계층 적 클러스터링의 단점을 이해하는 방법?


19

누군가 계층 적 클러스터링의 장단점을 설명 할 수 있습니까?

  1. 계층 적 군집화에는 K와 같은 단점이 있습니까?
  2. K 평균에 비해 계층 적 클러스터링의 장점은 무엇입니까?
  3. 우리는 언제 계층 적 클러스터링보다 K 수단을 사용해야합니까?

이 게시물에 대한 답변은 k의 단점을 잘 설명합니다. K- 평균의 단점을 이해하는 방법


2
에서 이 대답 나는 계층 응집성 클러스터 분석의 잠재적으로 문제면의 일부를 만졌다. 주요 "단점"은 반복적이지 않은 단일 패스 탐욕 알고리즘이라는 것입니다. 탐욕스러운 알고리즘을 사용하면 현재 단계의 작업을 최적화 할 수 있습니다. 대부분의 HC 방법의 경우 먼 미래 단계에서 최상의 파티션을 보장 할 필요는 없습니다. HC의 주요 장점은 사용할 근접 측정의 선택과 관련하여 융통성이 있다는 것입니다. @Mic은 이미 아래에 좋은 답변을 주었으므로 방금 울 렸습니다.
ttnphns

답변:


13

means는 전역 목표 (클러스터의 분산)를 최적화하려고 시도하고 지역적으로 최적의 집단적 계층 적 군집화를 달성하는 반면 정확하게 수행되지만 잠재적으로 차선책이되는 각 클러스터 융합 (욕심 알고리즘)에서 최상의 단계를 찾는 것을 목표로합니다. .k

기본 데이터가 계층 구조 (예 : 금융 시장의 상관 관계)를 갖고 계층 구조를 복구하려는 경우 계층 구조 클러스터링을 사용해야합니다. 여전히 -means를 적용 하여 그렇게 할 수 있지만 중첩되지 않은 파티션 (가장 거친 것 (클러스터의 모든 데이터 포인트)에서 가장 높은 것 (각 데이터 포인트는 클러스터))으로 끝날 수 있습니다. 적절한 계층 구조가 아닙니다.k

군집화의보다 정밀한 특성을 파고 싶다면 평균과 같은 플랫 군집화를 단일, 평균, 전체 연계와 같은 계층 적 군집화 에 반대하지 않을 수 있습니다 . 예를 들어, 이러한 모든 클러스터링은 공간을 절약합니다. 즉, 클러스터를 구축 할 때는 공간을 왜곡하지 않지만, Ward와 같은 계층 적 클러스터링은 공간을 유지하지 않습니다. 즉, 각 병합 단계에서 메트릭 공간을 왜곡합니다.k

결론적으로, 계층 적 클러스터링 알고리즘의 단점은 서로 매우 다를 수 있습니다. 일부는 평균 과 유사한 특성을 공유 할 수 있습니다 . Ward는 분산 최적화를 목표로하지만 단일 연계는 아닙니다. 그러나 그것들은 또한 다른 속성을 가질 수 있습니다 : Ward는 공간을 넓히고 Single Linkage는 k- 평균 과 같이 공간을 절약 합니다.kk

-공간 절약 및 공간 확장 속성을 정확하게 편집

공간 절약 : 여기서 D i j 는 거리입니다 클러스터 간 C IC의 J

나는제이[엑스나는,와이제이(엑스,와이),최대엑스나는,와이제이(엑스,와이)]
나는제이나는제이 병합 할 및 데이터 포인트 사이의 거리입니다.

공간 확장시키고 : 즉 병합하여 C를 IC의 J 알고리즘 멀리 클러스터 밀어 것이다 C의 케이 .

D(CiCj,Ck)max(Dik,Djk),
CiCjCk

계층 구조를 가진 데이터의 예를 몇 개 더 줄 수 있습니까? 금융 시장 사례를 따르지 않았습니다.
GeorgeOfTheRF

확실한. cf. arxiv.org/pdf/cond-mat/9802256.pdf 단순히를도 7에 arxiv.org/pdf/1506.00976.pdf 는 기본 블록에 나타날 수있다 : 상관 블록 계층 구조를 A (노이즈)을 갖는 상관 행렬을 도시 대각선은 더 많은 블록으로 나뉘어져 있으며 각 블록은 더 많은 블록으로 나뉩니다. 이는 지역 (유럽, 미국, 아시아 외 일본, 일본)의 세분화에 해당하며 각 지역은 자산 품질 (예 : 고품질 vs. 쓰레기)로 나눈 다음 큰 산업 부문 (소매, 산업, 미디어), 항공 우주, 자동차 등으로 더 세분화
마이크

3
+1. 그러나 should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchy반드시 그런 것은 아닙니다. 대부분의 경우 오히려 반대입니다. HC의 계층은 오히려 데이터 구조보다는 알고리즘에 대한 이야기이다 . 그럼에도 불구하고이 문제는 궁극적으로 철학적 / 논리적이며 통계적이지 않습니다.
ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space. 그것에 대해 더 쓸 수 있습니까? 이것은 명확하지 않습니다.
ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means. 단일 연결을위한 공간 계약을 말하고 싶습니까?
ttnphns

13

확장 성

는 여기서 확실한 승자가된다는 것을 의미합니다. O ( N K D ) 댄 훨씬 더 O ( N 3 D ) (몇몇 사례에 O ( N 2 D ) 보통 둘 때문에 계층 클러스터링) 확장 K I D는 불행히도 (작고, 나는 n 과 함께 자라는 경향이있으므로 O ( n )그렇지 않습니다.kO(nkdi)O(n3d)O(n2d)kidinO(n)보통). 또한 메모리 소비는 2 차 (일반적으로 선형 특수 사례가 있음)와 달리 선형입니다.

적응성

평균은 적용 성이 매우 제한적입니다. 그것은 본질적으로 유클리드 거리로 제한됩니다 (커널 공간의 유클리드 포함 및 Bregman 분기), 이것은 매우 이국적이며 실제로 k- 평균으로사용하지 않습니다). 더 나쁜 것은 k- 평균은 숫자 데이터에서만 작동합니다 ( k- 평균에적합하도록 실제로 연속적이고 밀도가 높아야 함).kkkk

계층 적 클러스터링이 확실한 승자입니다. 거리가 필요하지 않습니다. 단순히 높은 값을 낮은 값보다 선호함으로써 유사성 기능을 포함한 모든 측정을 사용할 수 있습니다. 카테고리 데이터? Jaccard와 같은 것을 사용하십시오. 줄? Levenshtein 거리를보십시오. 시계열? 확실한. 혼합 유형 데이터? 고 우어 거리. 계층 적 클러스터링을 사용할 수 있지만 -means를 사용할 수없는 수백만 개의 데이터 세트가 있습니다 .k

모델

승자가 없습니다. 평균은 데이터를 크게 줄이므로 점수가 높습니다. 중심은 이해하고 사용하기 쉽습니다. 반면에 계층 적 클러스터링은 덴드로 그램을 생성합니다. 덴드로 그램은 데이터 세트를 이해하는 데 매우 유용 할 수 있습니다.k


군집이 1) 비 구형 2) 반경이 다른 3) 밀도가 다른 경우 k와 같이 계층 구조가 실패합니까?
GeorgeOfTheRF

2
둘 다 작동하고 실패 할 수 있습니다. 그래서 덴드로 그램과 같은 것이 유용합니다. "정확한"클러스터링 결과를 절대 신뢰하지 마십시오.
익명-무스

계층 적 클러스터링은 탐욕스러운 접근 방식을 기반으로 클러스터를 로컬로 최적화 할 수 있지만 K는 전역 적으로 최적화 된 클러스터를 제공합니다. 또한 계층 적 클러스터링에 대한 설명은 비즈니스 사람들이 K 평균에 비해 상대적으로 쉽다는 것을 경험했습니다.
Arpit Sisodia

7

어떤 의미에서 특정 계층 적 클러스터링 방법을 선호하는 강력한 이론적 이유가있는 방법에 대해 다른 답변에 약간 추가하고 싶었습니다.

군집 분석에서 일반적인 가정은 데이터가 우리가 액세스 할 수없는 몇 가지 기본 확률 밀도 에서 샘플링 된다는 것입니다. 그러나 우리가 그것에 접근했다고 가정하자. f군집 을 어떻게 정의 할 것인가ff 할까요?

매우 자연스럽고 직관적 인 접근 방식은 고밀도 영역. 예를 들어 아래의 두 피크 밀도를 고려하십시오.f

enter image description here

그래프를 가로 질러 선을 그리면 클러스터 집합이 만들어집니다. 예를 들어 선을 그리면 두 개의 클러스터가 표시됩니다. 그러나 우리가 λ 3 에서 선을 그리면λ1λ3 단일 클러스터가 생깁니다.

더 정확하게하기 위해 임의의 이 있다고 가정 합니다. 레벨 λ 에서 f 의 군집은 무엇입니까 ? 그것들은 수퍼 레벨 세트의 연결된 컴포넌트입니다. { x : f ( x ) λ }λ>0fλ{x:f(x)λ} 입니다.

이제 임의의 를 선택하는 대신 모든 λ를 고려 하여 f 의 "true"클러스터 세트가 모든 수퍼 레벨 f 세트의 연결된 컴포넌트가되도록 할 수 있습니다. 핵심은이 클러스터 모음이 계층 적이라는 것입니다.λ λff 구조를 .

좀 더 정확하게하겠습니다. 가정하자 지원되는 X . 이제 C 1{ x : f ( x ) λ 1 } 의 연결된 구성 요소가 되고 C 2{ x : f ( x ) λ 2 } 의 연결 구성 요소가 됩니다. 즉, C 1 은 레벨 λ 1 의 클러스터 이고 C 2 는 레벨 λ 2 λ 의 클러스터입니다.fXC1{x:f(x)λ1}C2{x:f(x)λ2}C1λ1C2λ2 입니다. 그렇다면 이면 C 1C 2 또는 C 1C 2 = 입니다. 이 중첩 관계는 컬렉션의 모든 클러스터 쌍에 적용되므로 실제로클러스터계층 구조가 있습니다. 이것을클러스터 트리라고합니다λ2<λ1C1C2C1C2= 합니다.

이제 밀도에서 샘플링 한 데이터가 있습니다. 클러스터 트리를 복구하는 방식으로이 데이터를 클러스터링 할 수 있습니까? 특히 일관성 있는 방법을 원합니다 점점 더 많은 데이터를 수집 할 때 클러스터 트리에 대한 경험적 추정치가 실제 클러스터 트리에 가까워 질수록 .

ABfnfXnXnAn 를 모두 포함하는 경험적 클러스터를AXnBn be the smallest containing all of BXn. Then our clustering method is said to be Hartigan consistent if Pr(AnBn)=1 as n for any pair of disjoint clusters A and B.

Essentially, Hartigan consistency says that our clustering method should adequately separate regions of high density. Hartigan investigated whether single linkage clustering might be consistent, and found that it is not consistent in dimensions > 1. The problem of finding a general, consistent method for estimating the cluster tree was open until just a few years ago, when Chaudhuri and Dasgupta introduced robust single linkage, which is provably consistent. I'd suggest reading about their method, as it is quite elegant, in my opinion.

So, to address your questions, there is a sense in which hierarchical cluster is the "right" thing to do when attempting to recover the structure of a density. However, note the scare-quotes around "right"... Ultimately density-based clustering methods tend to perform poorly in high dimensions due to the curse of dimensionality, and so even though a definition of clustering based on clusters being regions of high probability is quite clean and intuitive, it often is ignored in favor of methods which perform better in practice. That isn't to say robust single linkage isn't practical -- it actually works quite well on problems in lower dimensions.

Lastly, I'll say that Hartigan consistency is in some sense not in accordance with our intuition of convergence. The problem is that Hartigan consistency allows a clustering method to greatly over-segment clusters such that an algorithm may be Hartigan consistent, yet produce clusterings which are very different than the true cluster tree. We have produced work this year on an alternative notion of convergence which addresses these issues. The work appeared in "Beyond Hartigan Consistency: Merge distortion metric for hierarchical clustering" in COLT 2015.


This is an interesting way of thinking about hierarchical clustering. I find it strongly reminiscent of clustering by nonparametric density estimation (pdf), which is implemented in R in the pdfCluster package. (I discuss it here.)
gung - Reinstate Monica

HDBSCAN* uses a similar approach.
Anony-Mousse -Reinstate Monica

3

An additional practical advantage in hierarchical clustering is the possibility of visualising results using dendrogram. If you don't know in advance what number of clusters you're looking for (as is often the case...), you can the dendrogram plot can help you choose k with no need to create separate clusterings. Dedrogram can also give a great insight into data structure, help identify outliers etc. Hierarchical clustering is also deterministic, whereas k-means with random initialization can give you different results when run several times on the same data. In k-means, you also can choose different methods for updating cluster means (although the Hartigan-Wong approach is by far the most common), which is no issue with hierarchical method.

EDIT thanks to ttnphns: One feature that hierarchical clustering shares with many other algorithms is the need to choose a distance measure. This is often highly dependent on the particular application and goals. This might be seen as an additional complication (another parameter to select...), but also as an asset - more possibilities. On the contrary, classical K-means algorithm specifically uses Euclidean distance.


3
I suppose "problem" in your last paragraph would be seen positively as an asset. K-means, however, is based implicitly on euclidean distance only.
ttnphns

Many possible choices can be a problem as well as an asset, indeed :) Thanks for the comment on k-means, I'll improve that paragraph.
Jacek Podlewski

@ttnphns Actually, " k-means " can be used with any Bregman divergences jmlr.org/papers/volume6/banerjee05b/banerjee05b.pdf ; I mean this is the case when considering that k-means is what results when considering the limiting case of Gaussian mixture models (from soft to hard), then by replacing Gaussian by another member of the exponential family, you replace the Euclidean distance by another Bregman divergence associated with the member of the family you picked. You end up with a similar algorithm scheme that aims to find a maximum likelihood with an expectation-maximization.
mic

I believe the original question was made with regard to "classical' K-means and not a slightest intention to delve into Bregman divergences. Nice remark though, I'll check out this paper more thoroughly for sure.
Jacek Podlewski

@mic nobody uses Bregman divergences beyond variations of Euclidean distance... it is a tiny tiny class only. But people would like to use e.g. Manhattan distance, Gower etc. which are not Bregman divergences for all I know.
Anony-Mousse -Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.