k- 평균의 수렴 증명


20

과제의 경우 k- 평균이 유한 한 단계로 수렴한다는 증거를 제공하라는 요청을 받았습니다.

이것이 내가 쓴 것입니다 :

다음에서 C 는 모든 클러스터 센터의 모음입니다. “에너지”함수를 정의하십시오. 에너지 함수는 음이 아닙니다. 알고리즘의 단계 (2)와 (3)이 모두 에너지를 감소시키는 것을 볼 수 있습니다. 에너지는 아래에서 묶여 있고 지속적으로 줄어들 기 때문에 지역 최소값으로 수렴해야합니다. E (C) 가 특정 임계 값 미만의 속도로 변경 되면 반복을 중지 할 수 있습니다 .

E(C)=xmini=1kxci2
E(C)

2 단계는 가장 가까운 군집 중심으로 각 데이터 요소에 레이블을 지정하는 단계를 말하고 3 단계는 평균을 취하여 중심을 업데이트하는 단계입니다.

유한 한 단계로 수렴을 증명하기에 충분하지 않습니다. 에너지는 계속 작아 질 수 있지만 에너지를 많이 바꾸지 않고 중심점이 뛸 수있는 가능성을 배제하지는 않습니다. 다시 말해, 에너지 최소값이 여러 개일 수 있으며 알고리즘이 둘 사이를 뛰어 넘을 수 있습니다.


5
힌트 : 몇 개의 가능한 중심점 모음이있을 수 있습니까?
whuber

답변:


35

첫째, 데이터 포인트를 클러스터 로 분할하는 최대 방법이 있습니다 . 이러한 각 파티션을 "클러스터링"이라고 할 수 있습니다. 이것은 크지 만 유한 한 숫자입니다. 알고리즘을 반복 할 때마다 이전 클러스터링 만을 기반으로 새 클러스터링을 생성 합니다. 그것을주의해라kNNk

  1. 이전 클러스터링이 새 클러스터링과 동일하면 다음 클러스터링이 다시 동일 해집니다.
  2. 새 클러스터링이 이전 클러스터링과 다른 경우 새 클러스터링은 비용이 저렴합니다.

알고리즘이 도메인이 유한 세트 인 함수를 반복하기 때문에 반복은 결국주기에 들어가야합니다. 사이클은 길이가 보다 클 수 없습니다. 그렇지 않으면 (2)에 의해 자체보다 비용이 저렴한 클러스터링이 불가능하므로 불가능합니다. 따라서 사이클의 길이는 정확히 이어야합니다 . 따라서 k- 평균은 유한 한 반복 횟수로 수렴합니다.11


주문이 왜 중요한가요? 즉, 클러스터링을 선택 하지 않는 이유는 무엇입니까? Nk
rrrrr

@rrrrr 올바른 공식은 여기서 는 두 번째 종류스털링 숫자입니다 . 내가 최대 말했기 때문에 중요하지 않습니다 . {nk}{nk} kN
jkabrg

6

무언가를 추가하려면 : 알고리즘이 수렴되는지 여부는 중지 기준에 따라 다릅니다. 클러스터 할당이 더 이상 변경되지 않으면 알고리즘을 중지하면 실제로 알고리즘이 수렴하지 않아도된다는 것을 실제로 입증 할 수 있습니다 (여러 개의 중심이 동일한 거리를 갖는 경우 클러스터 할당에 결정적 타이 브레이커가없는 경우).

여기에 이미지 설명을 입력하십시오

여기에는 8 개의 데이터 포인트 (도트)와 2 개의 중심 (빨간색 십자가)이 있습니다. 이제 녹색 데이터 점은 왼쪽과 오른쪽 중심에서 동일한 거리를 갖습니다. 파란색 데이터 포인트도 마찬가지입니다. 이 경우 할당 함수가 결정적이지 않다고 가정합니다. 또한 반복 1에서 녹색 점이 왼쪽 클러스터에 할당되고 파란색 점이 오른쪽 클러스터에 할당된다고 가정합니다. 그런 다음 중심을 업데이트합니다. 그들은 실제로 같은 자리에 머무는 것으로 나타났습니다. (이것은 쉬운 계산입니다. 왼쪽 중심의 경우 두 개의 검은 색 점과 두 개의 녹색 점의 좌표 평균을 구합니다-> (0, 0.5). 오른쪽 중심과 동일합니다).

그런 다음 반복 2에서 상황이 다시 동일하게 보이지만 이제 비 결정적 할당 함수 (비 결정적 할당 함수)가 녹색 점을 오른쪽 군집에, 파란색 점을 왼쪽 군집에 할당한다고 가정합니다. 다시 중심은 변하지 않습니다.

반복 3은 반복 1과 다시 동일합니다. 따라서 클러스터 할당이 지속적으로 변경되고 알고리즘 (이 중지 기준으로)이 수렴하지 않는 경우가 있습니다.

본질적으로 우리는 k- 평균의 각 단계가 비용을 줄이거 나 동일하게 유지한다는 보장 (예 : 대신 ). 이를 통해 할당이 여전히 변경 되더라도 반복을 통해 비용이 동일하게 유지되는 경우를 만들 수있었습니다.<

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.