통계 및 빅 데이터 clustering

3

나는 각각 5 개의 벡터로 된 응집 된 이산 결과를 포함하고, 각각의 벡터의 결과는 다른 분포에 의해 생성 된 일부 데이터 포인트를 가지고 있습니다 (구체적으로는 확실하지 않습니다. 법칙 (대략 1 ~ 0). K-Means와 같은 클러스터링 알고리즘을 사용하여 5 가지 구성 요소 분포의 속성을 기반으로 각 데이터 포인트를 그룹으로 분류하려고합니다. 이러한 …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

2

Gower 거리는 이진 변수의 차이를 어떻게 계산합니까?

내 데이터 세트에 73 개의 샘플이있는 17 개의 숫자 및 5 개의 이진수 (0-1) 변수가 있습니다. 클러스터 분석을 실행해야합니다. Gower 거리는 변수가 혼합 된 데이터 세트에 대한 좋은 지표라는 것을 알고 있습니다. 그러나 Gower 거리가 이진 변수 간의 차이를 계산하는 방법을 이해할 수 없었습니다 . 유클리드 거리와 다르지 않은 것 …

13 clustering distance mixed-type-data

1

k- 평균 일명 확장 가능한 K- 평균 ++

Bahman Bahmani et al. k-means ++의 빠른 버전 인 k-means ||를 소개했습니다. 이 알고리즘은 그들의 논문 , Bahmani, B., Moseley, B., Vattani, A., Kumar, R. & Vassilvitskii, S. (2012)의 4 페이지에서 가져온 것입니다 . 확장 가능한 k- 평균 ++. VLDB 엔 다우먼트 절차 , 5 (7), 622-633. 불행히도 나는 그 …

12 clustering k-means

5

매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?

데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

교차 유효성 검사를 통해 근거가없는 데이터 집합에서 서로 다른 클러스터링 방법을 비교할 수 있습니까?

현재, 나는 진실이없는 텍스트 문서 데이터 세트를 분석하려고합니다. k-fold cross validation을 사용하여 다른 클러스터링 방법을 비교할 수 있다고 들었습니다. 그러나 과거에 보았던 예는 근거가 있습니다. 이 데이터 세트에서 k-fold 방법을 사용하여 결과를 확인할 수있는 방법이 있습니까?

12 machine-learning clustering cross-validation unsupervised-learning

5

PCA를 사용하여 군집 분석을위한 변수 선택을 수행 할 수 있습니까?

군집 분석을 수행하려면 변수 수를 줄여야합니다. 내 변수는 서로 밀접하게 관련되어 있으므로 요인 분석 PCA (주성분 분석) 를 수행 하는 것으로 생각했습니다 . 그러나 결과 점수를 사용하면 클러스터가 정확하지 않습니다 (문헌의 이전 분류와 비교). 질문: 회전 행렬을 사용하여 각 구성 요소 / 인자에 대해 가장 큰 부하를 갖는 변수를 선택하고 …

12 clustering pca feature-selection factor-analysis

2

R에서 공간 데이터 클러스터링

해수면 온도 (SST) 월간 데이터 집합이 있으며 비슷한 SST 패턴을 가진 지역을 탐지하기 위해 몇 가지 클러스터 방법을 적용하고 싶습니다. 1985에서 2009까지 실행되는 월간 데이터 파일 세트가 있으며 첫 번째 단계로 매월 클러스터링을 적용하고 싶습니다. 각 파일에는 약 50 %가 랜드이고 99.99 값이 NA 인 358416 포인트에 대한 그리드 데이터가 …

12 r clustering spatial

6

군집 분석에 대한 추천 도서 또는 기사?

작은 (200M) 코퍼스 텍스트를 작업 중입니다. 클러스터 분석으로 탐색하고 싶습니다. 그 주제에 관해 어떤 책이나 기사를 추천 하시겠습니까?

12 machine-learning references clustering

1

Fisher의 정확한 테스트 및 초기 하 분포

피셔의 정확한 테스트를 더 잘 이해하고 싶기 때문에 f와 m이 남성과 여성에 해당하고 n과 y가 "소다 소비"에 해당하는 다음 장난감 예제를 고안했습니다. > soda_gender f m n 0 5 y 5 0 분명히 이것은 과감한 단순화이지만 컨텍스트가 방해되는 것을 원하지 않았습니다. 여기서 나는 남자들이 음료수를 마시지 않고 여자들은 음료수를 마시고 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

R에서 k- 평균 군집화 결과 해석

kmeansAnderson의 홍채 데이터 세트에서 k- 평균 알고리즘을 수행하기 위해 R 의 명령을 사용하고있었습니다 . 내가 얻은 일부 매개 변수에 대한 질문이 있습니다. 결과는 다음과 같습니다. Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 이 경우 "클러스터 의미"는 무엇을 의미합니까? 클러스터 내 모든 객체의 거리의 평균입니까? 또한 마지막 …

12 r machine-learning clustering interpretation k-means

1

R의 혼합 데이터를위한 강력한 클러스터 방법

작은 데이터 세트 (4 개의 구간 변수 및 단일 3 요인 범주 형 변수에 대한 64 개의 관측치)를 군집화하려고합니다. 이제는 클러스터 분석을 처음 접했지만 계층 적 클러스터링 또는 k- 평균이 유일하게 사용 가능한 옵션이었던 시절부터 상당한 진전이 있었음을 알고 있습니다. 특히, chl 에 의해 지적 된 바와 같이 "적합성 지수를 …

12 clustering model-based-clustering mixed-type-data

3

이진 데이터 클러스터링이 중요한지 어떻게 테스트 할 수 있습니까?

장바구니를 분석하고 있습니다. 데이터 세트가 구매 한 상품과 함께 거래 벡터 세트입니다. 거래에 K-수단을 적용 할 때, 난 항상 얻을 것이다 어떤 결과를. 임의 행렬은 아마도 일부 군집을 보여줄 것입니다. 내가 찾은 클러스터링이 중요한지 또는 우연의 일치인지 테스트하는 방법이 있습니까? 그렇다면 어떻게 할 수 있습니까?

12 clustering statistical-significance binary-data

1

군집 분석에서 변수에 가중치를 할당

클러스터 분석에서 변수에 다른 가중치를 할당하고 싶지만 내 프로그램 (Stata)에 옵션이없는 것 같으므로 수동으로 수행해야합니다. 4 개의 변수 A, B, C, D를 상상해보십시오. 이러한 변수의 가중치는 w(A)=50% w(B)=25% w(C)=10% w(D)=15% 다음 두 가지 방법 중 하나가 실제로 트릭을 수행하는지 궁금합니다. 먼저 모든 변수를 표준화합니다 (예 : 범위별로). 그런 다음 각 …

12 clustering stata

1

표본 공분산 행렬이 되돌릴 수없는 경우 어떻게해야합니까?

주어진 d- 차원 벡터 클러스터에 대해 다변량 정규 분포를 가정하고 샘플 d- 차원 평균 벡터와 샘플 공분산 행렬을 계산하는 몇 가지 클러스터링 기술을 연구하고 있습니다. 그런 다음 보이지 않는 새로운 d- 차원 벡터가이 클러스터에 속하는지 결정하려고 할 때이 측정을 통해 거리를 확인합니다. ( X나는− μ^엑스)'σ^− 1엑스( X나는− μ^엑스) > B0.95( …

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

2

k- 평균 군집 알고리즘이 차원의 저주로 고통 받고 있음을 어떻게 알 수 있습니까?

나는이 질문의 제목이 모든 것을 말해 준다고 믿는다.

12 clustering k-means high-dimensional

«clustering» 태그된 질문