k- 평균 군집화가 가우스 혼합 모델링의 한 형태 인 경우 데이터가 정상적이지 않을 때 사용할 수 있습니까?


21

GMM에 대한 EM 알고리즘과 GMM과 k- 평균 간의 관계에 대한 Bishop을 읽고 있습니다.

이 책에서는 k-means가 GMM의 하드 할당 버전이라고 말합니다. 클러스터링하려는 데이터가 가우시안이 아닌 경우 k- 평균을 사용할 수 없거나 적어도 사용하기에 적합하지 않다는 것을 궁금합니다. 예를 들어, 데이터가 각각 0 또는 1의 값을 가진 8 * 8 픽셀로 구성된 자필 숫자의 이미지 인 경우 (독립적이라고 가정하여 Bernoulli의 혼합이어야 함) 어떻게해야합니까?

나는 이것에 약간 혼란스럽고 어떤 생각을 고맙게 생각할 것입니다.


2
비정규 데이터에서 k- 평균 군집화를 수행하는 것이 유효한지 묻는 경우 데이터가 연속적인 것으로 가정하면 대답은 예입니다. 이진 데이터는 연속적이지 않습니다. 어떤 사람들은 그러한 데이터에 대해 k- 평균을 수행하는데, 이는 이론적으로 허용되지만 이론적으로는 유효하지 않습니다.
ttnphns

k- 평균에 대한 확률 모델이 없으므로 무효화 할 정규성 가정이 없습니다. (하지만 잘 작동한다는 의미는 아님)
추측 :

1
@conjectures Hmm ... 그러나 k-menas는 GMM과 동일하며 GMM은 정상이라고 가정합니다.
eddie.xie

@ttnphns 답변 주셔서 감사합니다! 따라서 TF-IDF를 사용하여 텍스트를 점수로 전송하고 연속적으로 적용하면 적용 할 수 있고 유효합니까?
eddie.xie

나는 GMM이 몇 명의 가우스 인 혼합 (합)이라는 것을 알고 있으며 충분한 혼합이 주어진 분포를 표현할 수 있어야합니다. 따라서 GMM과 K- 평균이 동등하더라도 K- 평균이 비정규 데이터를 사용할 수 없다는 의미는 아닙니다. 그 맞습니까?
eddie.xie

답변:


20

전형적인 EM GMM 상황에서는 분산과 공분산을 고려합니다. 이것은 k- 평균에서는 수행되지 않습니다.

그러나 실제로 k-means에 대한 인기있는 휴리스틱 중 하나입니다 (참고 : k-means는 알고리즘이 아니라 문제입니다) – Lloyd 알고리즘은 본질적으로 중심 모델 (분산없이)과 어려운 할당을 사용하는 EM 알고리즘입니다.

k- 평균 스타일 군집화 (예 : 분산 최소화)를 수행 할 때

  • WCSS (클러스터의 제곱합 내) 분산 기여도 = 제곱 유클리드 거리이므로 우연히 제곱 유클리드 거리를 최소화
  • sqrt 함수가 모노톤이므로 평균이 유클리드 거리만큼 가장 가까운 군집에 객체를 동시에 할당합니다 (평균이 유클리드 거리를 최적화 하지는 않지만 WCSS 함수를 유의하십시오)
  • 중심 만 사용하여 군집을 나타냄
  • Voronoi 세포 모양의 클러스터, 즉 다각형을 얻습니다.
  • 구형 클러스터와 가장 잘 작동합니다.

K 용 수단 목적 함수는 다음과 같이 공식화 될 수있다 : 여기서, S = { S (1) ... S K } 데이터 세트를 k 개의 파티션으로 분할 할 수 있으며 D 는 데이터 세트 차원이며, 예를 들어 x j d

아르 민에스나는=1케이엑스j에스나는=1(엑스jμ나는)2
에스={에스1에스케이}케이엑스j차원 d 번째 인스턴스 의 좌표입니다 .j

k- 평균은 구형 클러스터라고 가정합니다. k- 평균 클러스터는 보로 노이 세포, 즉 구형이 아니라는 것이 일반적으로 인정된다. 둘 다 정확하고 둘 다 잘못되었습니다. 우선, 클러스터는 완전한 Voronoi 셀이 아니라 그 안에 알려진 객체 만 있습니다. 객체 사이에 알고리즘 결과에 영향을 줄 수 있으므로 클러스터 사이의 데드 스페이스를 두 클러스터의 일부로 간주 할 필요가 없습니다. 그러나 유클리드 거리가 구형이기 때문에 "구형"이라고 부르는 것이 낫지 않습니다. K- 평균은 유클리드 거리에 신경 쓰지 않습니다. 모든 것은 분산 을 최소화하는 휴리스틱 입니다. 그리고 실제로 k- 평균은 분산 최소화입니다.


좀 더 정확한 표현을 위해 약간의 표현을 세분화하도록 제안하겠습니다. 예를 들어 minimize squared euclidean distance또는 minimize the variances무엇입니까? 2 개 이상의 클러스터가 있기 때문에 "합계"또는 "풀링"등의 단어가 있어야합니까?
ttnphns

BTW, k- 평균은 d ^ 2의 풀링 된 클러스터 내 합을 각 클러스터의 객체 수로 나눈 값을 최소화하므로 요점 coincidentally minimize Euclidean distance, because the sqrt function is monotone은 정확하고 정확하지 않습니다.
ttnphns

수렴을 입증 할 수있는 적절한 목적 함수는 클러스터 내 제곱 내 WCSS 입니다. 실제로 유클리드 거리를 최소화하지는 않지만 가장 가까운 중심 별 거리는 WCSS 최적 할당입니다.
익명-무스

당신의 표현은 불행히도 모호 합니다. 문구 minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance 무엇을 의미 합니까? " 편차의 WCSS가 최소화되기 때문에 클러스터 의 객체 사이의 제곱 d 가 최소화됩니다"또는 "편차- 본질적 으로 유클리드 거리 인 편차의 WCSS가 최소화됩니다"라고 말하고 있습니까? 아니면 다른?
ttnphns

1
k- 평균은 데이터의 중심 모델을 원할 경우에만 좋은 선택입니다. 페어 단위 거리를 최적화하려면 계층 적 클러스터링을 사용하십시오.
Anony-Mousse

8

GMM은 겹치는 언덕을 사용 하여 무한대로 뻗어나갑니다 (실제로는 3 시그마 만 계산) 각 포인트는 모든 언덕의 확률 점수를 얻습니다. 또한 언덕은 "계란 모양"입니다. [대칭 타원입니다 ] 전체 공분산 행렬을 사용하여 기울어 질 수 있습니다 .

K- 평균은 점을 단일 군집에 하드 할당 하므로 다른 군집 중심의 점수는 무시됩니다 (암시 적으로 0으로 설정 / 관리하지 않음). 언덕은 구형 비누 방울입니다. 두 비누 방울이 닿으면 그 사이의 경계가 평평한 (평면) 평면이됩니다. 많은 비누 방울의 거품을 불어 넣을 때와 마찬가지로 내부의 거품은 평평하지 않지만 상자 모양이므로 많은 (구) 하이퍼 스피어 사이의 경계는 실제로 공간의 보로 노이 구획을 형성합니다. 2D에서 이것은 육방 정계 포장처럼 모호하게 보이는 경향이 있습니다. 벌집이라고 생각합니다 (물론 보로 노이 세포는 육각형으로 보장되지는 않습니다). K- 평균 언덕은 둥글고 기울어지지 않으므로 표현력이 떨어집니다. 그러나 특히 높은 차원에서는 계산 속도가 훨씬 빠릅니다.

K- 평균은 유클리드 거리 측정법을 사용하기 때문에 치수가 비교 가능하고 동일한 무게라고 가정합니다. 따라서 치수 X에 시간당 마일 단위가 0에서 80까지 다양하고 치수 Y에 파운드 단위가 0에서 400까지 다양하고이 XY 공간에 원을 맞추면 1 차원 (및 스프레드) 될 것입니다 더 강력한 다른 치수보다 결과를 압도 할 것입니다. K- 평균을 사용할 때 데이터 를 정규화 하는 것이 관례 입니다.

GMM과 K- 평균 은 주어진 근사값에 가장 가까운 근사값을 맞춰 데이터를 모델링 합니다. GMM은 기울어 진 계란에 적합하고 K- 평균은 경 사진 구에 적합합니다. 그러나 기본 데이터는 어떤 모양이든 나선 또는 피카소 페인팅 일 수 있으며 각 알고리즘은 여전히 ​​실행되며 최상의 결과를 얻을 수 있습니다. 결과 모델이 실제 데이터와 비슷한 지 여부는 데이터를 생성하는 기본 물리적 프로세스에 따라 다릅니다. 예를 들어, 시간 지연 측정은 일방적입니다. 가우시안이 적합합니까?

아르 자형

따라서 8x8 이진 이미지는 첫 번째 사분면에서 64 차원 하이퍼 큐브로 해석됩니다. 그런 다음 알고리즘은 기하학적 유추를 사용하여 군집을 찾습니다. K- 평균이있는 거리는 64 차원 공간에서 유클리드 거리로 표시됩니다. 그것을하는 한 가지 방법입니다.


두 알고리즘 모두 공간 축이 모든 지점에서 똑같이 밀도가 높다고 가정하므로 지수, 로그 또는 사인 곡선이 다양한 데이터에 적합하면 일반적으로 데이터를 대략 선형 적으로 변하는 도메인에 다시 매핑하는 사전 변환의 이점이 있습니다.
DragonLord
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.