통계 및 빅 데이터 k-means

1

팬더와 scikit learn을 사용하여 파이썬으로 kmeans 클러스터링을 코딩하고 싶습니다. 좋은 k를 선택하기 위해 Tibshirani와 al 2001 ( pdf ) 의 Gap Statistic을 코딩하고 싶습니다 . scikit의 inertia_ 결과 를 사용 하고 모든 거리 계산을 다시 코딩하지 않고도 갭 통계 공식을 조정할 수 있는지 알고 싶습니다 . scikit에 사용 된 관성 …

9 clustering python k-means scikit-learn metric

1

GPS 기반 보고서에서 알려지지 않은 실제 위치 수 확인

여러 GPS 기반 보고서 에서 실제 위치 (fe 속도 캠)를 결정 해야하는 소프트웨어를 개발 중 입니다. 위치를보고 할 때 사용자가 운전을하므로보고가 매우 정확하지 않습니다. 이 문제를 해결하려면 동일한 위치에 대한 보고서를 클러스터링하고 평균을 계산해야합니다. 내 질문은 이러한 보고서를 클러스터링하는 방법에 관한 것 입니다. Expectation-maximation 알고리즘 과 k- 평균 군집화 에 …

9 k-means expectation-maximization point-estimation

3

k- 평균에 대한 군집 선택 : 1 군집 사례

kmeans를 사용한 클러스터링이 적절한 지 판단하는 좋은 방법을 아는 사람이 있습니까? 즉, 샘플이 실제로 균질 한 경우 어떻게해야합니까? 혼합 모델 (R의 mclust를 통해)이 1 : k 클러스터 사례에 적합한 통계를 제공한다는 것을 알고 있지만, kmeans를 평가하는 모든 기술은 최소 2 개의 클러스터가 필요한 것처럼 보입니다. 누구든지 kmeans에 대한 1 및 …

9 r clustering k-means

1

관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?

4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

3

k- 평균 알고리즘의 사이클링

위키 에 따르면 가장 널리 사용되는 수렴 기준은 "보조가 변경되지 않았습니다"입니다. 이러한 수렴 기준을 사용하면 사이클링이 가능한지 궁금합니다. 누군가가 사이클링의 예를 제공하거나 이것이 불가능하다는 것을 입증하는 기사에 대한 참조를 지적하면 기뻐합니다.

9 clustering algorithms k-means

«k-means» 태그된 질문