데이터 마이닝 또는 빅 데이터에 대한 업계 경험이 없으므로 경험을 공유하는 것을 듣고 싶습니다.
사람들이 실제로 큰 데이터 세트에서 k- 평균, PAM, CLARA 등을 실행합니까? 아니면 무작위로 샘플을 추출합니까? 데이터 집합의 샘플 만 가져 오는 경우 데이터 집합이 정규 분포를 따르지 않으면 결과가 신뢰할 수 있습니까?
이러한 알고리즘을 실행할 때 실제 상황에서 수렴이 발생할 때까지 일반적으로 반복되는 횟수를 알 수 있습니까? 아니면 반복 횟수가 항상 데이터 크기에 따라 증가합니까?
수렴 전에 반복 알고리즘을 종료하는 접근 방식을 개발하려고 생각하기 때문에 이것을 묻고 있지만 결과는 여전히 허용됩니다. 반복 횟수가 1,000 개가 넘으면 시도해 볼 가치가 있다고 생각하므로 계산 비용과 시간을 절약 할 수 있습니다. 어떻게 생각해?
number of iterations always grow with the data size
반드시 그런 것은 아닙니다.