K-Means 및 EM을 사용한 클러스터링 : 어떻게 관련되어 있습니까?


50

데이터 클러스터링 (비지도 학습) : EM 및 k- 평균 알고리즘을 연구했습니다. 나는 다음을 계속 읽습니다.

k- 평균은 군집이 구형이라는 가정하에 EM의 변형입니다.

누군가 위의 문장을 설명 할 수 있습니까? 나는 구상 의미가 무엇인지, kmeans와 EM이 어떻게 관련되는지 이해하지 못합니다. 하나는 확률 론적 할당을 수행하고 다른 하나는 결정 론적 방식으로 수행하기 때문입니다.

또한 어떤 상황에서 k- 평균 군집화를 사용하는 것이 더 낫습니까? 또는 EM 클러스터링을 사용합니까?


구형은 각 군집에 대해 동일한 분산 공분산 행렬을 의미합니다 (가우스 분포 가정). 이는 모델 기반 군집이라고도합니다. 결정 론적 접근 방법은 무엇입니까?
chl

2
인용의 출처를 알려 주면 좋을 것입니다.
ttnphns

1
k는 클러스터가 유클리드 공간에서 다소 둥글고 단단하고 (무겁거나 길거나 구부러 지거나 울리지 않음) 구름 인 것으로 가정합니다. 정규 분포 에서 나오지 않아도됩니다 . EM은이를 요구합니다 (또는 최소한 특정 유형의 배포판을 알고 있어야 함).
ttnphns

답변:


38

K는

  1. 수렴시 하나의 특정 클러스터에 데이터 포인트를 하드 할당합니다.
  2. 최적화 할 때 L2 규범을 사용합니다 (최소 {Theta} L2 규범 점 및 중심 좌표).

여자 이름

  1. Soft는 점을 군집에 지정합니다 (따라서 어떤 점이 임의의 중심에 속할 가능성이 있음).
  2. L2 규범에 의존하지 않지만 예상, 즉 특정 클러스터에 속하는 포인트의 확률을 기반으로합니다. 이로 인해 K- 평균이 구형 클러스터쪽으로 편향됩니다.

57

"k- 평균 알고리즘"이 없습니다. k- 평균을위한 MacQueens 알고리즘, k- 평균을위한 Lloyd / Forgy 알고리즘, Hartigan-Wong 방법, ...

EM 알고리즘도 없습니다. 가능성을 반복해서 기대하고 모델을 최대화하는 일반적인 체계입니다. EM의 가장 인기있는 변형은 "Gaussian Mixture Modeling"(GMM)으로도 알려져 있으며, 여기서 모델은 다변량 가우스 분포입니다.

Lloyds 알고리즘을 두 단계로 구성 할 수 있습니다.

  • 각 단계가 중심에 할당되어 가장 가능성이 높은 클러스터에 할당되는 E- 단계.
  • 모델 (= 중심)이 재 계산되는 M 단계 (= 최소 제곱 최적화).

... Lloyd가 수행 한대로이 두 단계를 반복하면 일반적인 EM 체계의 실례가됩니다. GMM과 다른 점은 다음과 같습니다.

  • 하드 파티셔닝을 사용합니다. 즉, 각 객체는 정확히 하나의 클러스터에 할당됩니다
  • 모형은 중심 만이며 공분산이나 분산은 고려되지 않습니다.

평균 의 변형을 조금 개발할 수 있습니까 ? 나는에서 간단하게 살펴했다 통계 학습의 요소 ... 그들이 "의 존재의 아이디어 지원 (Hastie, Tibshirani, 프리드먼), 14 장을 -means 알고리즘을". kk
Elvis

10
많은 책들이 로이드 알고리즘과 k- 평균을 같지만,이를 k- 평균이라고 부르지 않았습니다. 맥퀸은 k- 평균이라는 이름을 소개했습니다. 죄송합니다 : 많은 책에서 여기에서 잘못된 이름을 사용합니다 . k- 평균은 하나의 인기있는 솔루션 인 lloyd의 문제입니다. 실제로 R은 기본적으로 하트만-원을 실행하여 kmeans를 해결합니다.
Anony-Mousse

4

다음은 mplus 에서이 작업을 수행 한 경우 도움이되고보다 포괄적 인 답변을 칭찬하는 예입니다.

3 개의 연속 변수가 있고이를 기반으로 클러스터를 식별하려고한다고 가정 해보십시오. 조건부 독립성을 가정하고 (클러스터 멤버쉽이 주어지면 관측 된 변수는 독립적 임) 혼합 모델 (이 경우에는보다 구체적으로 잠재 프로파일 모델)을 다음과 같이 지정합니다.

Model: 
%Overall%
v1* v2* v3*;  ! Freely estimated variances
[v1 v2 v3];   ! Freely estimated means

매번 다른 수의 클러스터를 지정할 때 마다이 모델을 여러 번 실행하고 가장 좋아하는 솔루션을 선택합니다 (이 작업은 자체적으로 광범위한 주제입니다).

그런 다음 k- 평균을 실행하려면 다음 모델을 지정합니다.

Model: 
%Overall%
v1@0 v2@0 v3@0;  ! Variances constrained as zero
[v1 v2 v3];      ! Freely estimated means

따라서 클래스 멤버십은 관찰 된 변수의 평균까지의 거리에만 근거합니다. 다른 반응에서 언급했듯이 차이는 그와 관련이 없습니다.

mplus 에서이 작업을 수행하는 좋은 점은 중첩 된 모델이므로 두 방법 간의 분류에서 불일치를 비교할 수있을뿐만 아니라 제약 조건이 더 적합하지 않은지 직접 테스트 할 수 있다는 것입니다. 그런데이 두 모델 모두 EM 알고리즘을 사용하여 추정 할 수 있으므로 그 차이는 실제로 모델에 대한 것입니다.

3 차원 공간에서 생각하면 3은 점을 의미합니다 ... 그리고 그 점을 통과하는 타원체의 세 축은 분산됩니다. 세 가지 분산이 모두 같으면 구를 얻게됩니다.


이 예에 감사드립니다. 아이디어를 많이 고치는 데 도움이됩니다.
Myna
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.