K- 평균 대 온라인 K- 평균


15

K- 평균 은 클러스터링을위한 잘 알려진 알고리즘이지만 이러한 알고리즘의 온라인 변형 (온라인 K- 평균)도 있습니다. 이러한 접근법의 장단점은 무엇이며 각각 선호하는시기는 언제입니까?

답변:


11

온라인 k- 평균 (보다 일반적으로 순차 k- 평균 이라고도 )과 전통적인 k- 평균은 매우 유사합니다. 차이점은 온라인 k- 평균을 통해 새 데이터가 수신 될 때 모델을 업데이트 할 수 있다는 것입니다.

온라인 k- 평균은 데이터가 하나씩 (또는 청크 단위로) 수신 될 것으로 예상 될 때 사용해야합니다. 이를 통해 모델에 대한 추가 정보를 얻을 때 모델을 업데이트 할 수 있습니다. 이 방법의 단점은 데이터 수신 순서 ( ref )에 따라 달라진다는 것입니다 .


7

최초의 MacQueen k-means 간행물 (처음으로 "kmeans"라는 이름을 사용함)은 온라인 알고리즘입니다.

JB MacQueen (1967). "다변량 관측의 분류 및 분석을위한 몇 가지 방법". 수학 통계 및 확률에 관한 제 5 회 버클리 심포지엄의 절차 1. University of California Press. pp. 281–297

각 점을 할당 한 후 단순 가중 평균 수식을 사용하여 평균이 증분 업데이트됩니다 (이전 평균에 n이 가중 된 경우 평균에 n 개의 관측치가있는 경우 새 관측치에 1이 가중 됨).

내가 알 수있는 한, 수렴 할 때까지 포인트를 다시 할당하기 위해 사소하게 여러 번 반복 할 수는 있지만 데이터를 한 번만 통과하는 것이 었습니다.

MacQueen은 일반적으로 데이터가 뒤섞이면 (평균이 빨리 업데이트되기 때문에) Lloyds보다 반복 횟수가 적습니다. 주문 된 데이터에는 문제가있을 수 있습니다. 단점은 각 객체에 대해 더 많은 계산이 필요하므로 각 반복에 약간의 시간이 걸립니다 (추가 수학 연산).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.