«k-means» 태그된 질문

k- 평균은 데이터가 가장 가까운 평균을 갖는 군집에 할당 될 때 지정된 수의 평균 k, st를 찾아서 군집으로 데이터를 분할하는 방법으로, 군집의 제곱합을 최소화합니다

2
k- 평균 대 k- 중간 값?
k- 평균 군집 알고리즘과 k- 중간 값이 있다는 것을 알고 있습니다. 하나는 평균을 군집의 중심으로 사용하고 다른 하나는 중앙값을 사용합니다. 내 질문은 언제 / 어디를 사용해야합니까?

2
그라디언트 디센트를 사용하여 k- 평균이 최적화되지 않는 이유는 무엇입니까?
k- 평균 이 일반적으로 Expectation Maximization을 사용하여 최적화 된다는 것을 알고 있습니다. 그러나 다른 최적화 방법과 동일하게 손실 기능을 최적화 할 수 있습니다! 실제로 대규모 k- 평균에 확률 론적 경사 하강 을 사용하는 일부 논문을 찾았 지만 질문에 대한 답변을 얻을 수 없었습니다. 왜 그런지 아는 사람이 있습니까? 기대 극대화가 …

3
다른 알고리즘 대신 k- 평균을 사용하는 이유는 무엇입니까?
나는 k- 평균에 대해 연구했고 이것들은 내가 얻은 것입니다 : k- 평균은 감독되지 않은 학습 방법을 사용하여 알려진 클러스터링 문제를 해결하는 가장 간단한 알고리즘 중 하나입니다. 큰 데이터 세트에서 실제로 잘 작동합니다. 그러나 K-Means의 단점은 다음과 같습니다. 특이 치 및 노이즈에 대한 강한 감도 비 원형 클러스터 형태에서는 제대로 작동하지 …


3
k- 평균 군집 분석 후 분산 분석의 적절성
K- 평균 분석 후 ANOVA 표 뒤의 통지는 거리를 최대화하기 위해 유클리드 거리를 기반으로 군집 솔루션이 도출되었으므로 유의 수준을 동일한 평균의 검정으로 간주해서는 안됨을 나타냅니다. 군집 변수의 평균이 군집마다 다른지 여부를 나타 내기 위해 어떤 테스트를 사용해야합니까? k- 평균 출력의 제공된 분산 분석표에서이 경고를 보았지만 일부 참조에서는 사후 분산 분석 …
14 anova  k-means 

2
R에 발견 된 군집의 중심을 취하여 군집을 새로운 데이터 세트에 할당하는 기능이 있습니까?
내가 다차원 데이터 세트의 두 부분으로,의 그들을 부르 자 train와 test. 열차 데이터 세트를 기반으로 모델을 빌드 한 다음 테스트 데이터 세트에서 모델을 검증하려고합니다. 클러스터 수는 알려져 있습니다. R에서 k- 평균 군집화를 적용하려고 시도했으며 군집 중심을 포함하는 객체를 얻었습니다. kClust <- kmeans(train, centers=N, nstart=M) R에 발견 된 군집의 중심을 취하여 …
14 r  clustering  k-means 


3
kmeans를 실행하기 전에 상관 관계 / 공 선형 변수를 삭제해야합니까?
고객의 클러스터를 식별하기 위해 kmeans를 실행하고 있습니다. 클러스터를 식별하는 약 100 개의 변수가 있습니다. 이러한 각 변수는 고객이 카테고리에서 지출 한 비율을 나타냅니다. 따라서 100 개의 카테고리가있는 경우 각 고객에 대해이 변수의 합이 100 %가되도록 100 개의 변수를 갖습니다. 이제이 변수들은 서로 밀접하게 연관되어 있습니다. kmeans를 실행하기 전에 공선 성을 …

5
거리 (유클리드)를 유사성 점수로 변환하는 방법
사용하여 스피커 음성을 클러스터링한다는 의미입니다. 발화를 클러스터 된 스피커 데이터와 비교하면 (유클리드 거리 기반) 평균 왜곡이 발생합니다. 이 거리는 범위에있을 수 있습니다 . 이 거리를 유사성 점수 로 변환하고 싶습니다 . 내가 어떻게 이것을 달성 할 수 있는지 안내해주세요.kkk[0,∞][0,∞][0,\infty][ 0 , 1 ][0,1][0,1]

4
데이터 세트의 랜덤 서브 샘플을 사용하여 K- 평균 센터를 초기화합니까?
특정 데이터 세트가있는 경우 해당 데이터 세트의 임의 샘플을 사용하여 클러스터 센터를 초기화하는 것이 얼마나 영리합니까? 예를 들어, 내가 원한다고 가정하십시오 5 clusters. 내가 가지고 5 random samples, 말의 size=20%원본 데이터 셋의. 그런 다음이 5 개의 임의 샘플 각각의 평균을 취하여 해당 평균을 5 개의 초기 클러스터 센터로 사용할 수 …


2
KMEANS에서 k의 수를 추정하기 위해 BIC 사용
현재 장난감 데이터 세트 (ofc iris (:))의 BIC를 계산하려고합니다. 여기에 표시된 결과를 재현하려고합니다 (그림 5).이 논문은 BIC 공식의 소스이기도합니다. 나는 이것에 2 가지 문제가있다 : 표기법: ninin_i = 클러스터 의 요소 수iii CiCiC_i = 군집 중심 좌표iii xjxjx_j = 클러스터 할당 된 데이터 포인트iii mmm = 클러스터 수 1) 식에서 …

3
군집 확률 분포-방법 및 지표?
나는 각각 5 개의 벡터로 된 응집 된 이산 결과를 포함하고, 각각의 벡터의 결과는 다른 분포에 의해 생성 된 일부 데이터 포인트를 가지고 있습니다 (구체적으로는 확실하지 않습니다. 법칙 (대략 1 ~ 0). K-Means와 같은 클러스터링 알고리즘을 사용하여 5 가지 구성 요소 분포의 속성을 기반으로 각 데이터 포인트를 그룹으로 분류하려고합니다. 이러한 …

1
k- 평균 일명 확장 가능한 K- 평균 ++
Bahman Bahmani et al. k-means ++의 빠른 버전 인 k-means ||를 소개했습니다. 이 알고리즘은 그들의 논문 , Bahmani, B., Moseley, B., Vattani, A., Kumar, R. & Vassilvitskii, S. (2012)의 4 페이지에서 가져온 것입니다 . 확장 가능한 k- 평균 ++. VLDB 엔 다우먼트 절차 , 5 (7), 622-633. 불행히도 나는 그 …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.