10 차원 포인트 집합에서 k- 평균 군집화를 수행하려고합니다. 캐치 : 10 ^ 10 포인트가 있습니다.
나는 가장 큰 클러스터의 중심과 크기만을 찾고 있습니다 (10 ~ 100 개의 클러스터라고합시다). 각 지점이 어떤 클러스터로 끝나는 지 상관하지 않습니다. k- 평균을 사용하는 것은 특별히 중요하지 않습니다. 나는 비슷한 효과를 찾고 있는데, 대략적인 k- 평균 또는 관련 알고리즘이 훌륭 할 것입니다 (minibatch-SGD 평균, ...). GMM은 k- 평균과 같은 문제이므로 동일한 크기의 데이터에 대해 GMM을 수행하는 것도 흥미 롭습니다.
이 스케일에서 데이터를 서브 샘플링해도 결과가 크게 변경되지 않을 수 있습니다. 1/10000 번째 데이터 샘플을 사용하여 동일한 상위 10 개 클러스터를 찾을 확률은 매우 좋습니다. 그러나 그때조차도 그것은 다루기 힘든 가장자리에 있거나 넘어있는 10 ^ 6 포인트 문제입니다.