«k-means» 태그된 질문

k- 평균은 데이터가 가장 가까운 평균을 갖는 군집에 할당 될 때 지정된 수의 평균 k, st를 찾아서 군집으로 데이터를 분할하는 방법으로, 군집의 제곱합을 최소화합니다

5
K- 평균의 단점을 이해하는 방법
K- 평균은 군집 분석에서 널리 사용되는 방법입니다. 내 이해에 따르면,이 방법은 모든 가정을 필요로하지 않습니다. 즉, 데이터 세트와 미리 지정된 수의 클러스터 k를 주면됩니다. 클러스터 제곱 내에서 제곱 오차 (SSE)의 합계를 최소화하는이 알고리즘을 적용하면됩니다. 오류. k- 평균은 본질적으로 최적화 문제입니다. k- 평균의 단점에 대한 자료를 읽었습니다. 그들 대부분은 다음과 같이 …


6
클러스터링 알고리즘이 의미있는 결과를 얻을 수있을 정도로 데이터가 "클러스터"되어 있는지 확인하는 방법은 무엇입니까?
kman 또는 다른 클러스터링 알고리즘의 결과가 실제로 의미가 있도록 (고차원) 데이터에 충분한 클러스터링이 있는지 어떻게 알 수 있습니까? 특히 k- 평균 알고리즘의 경우 실제 군집 결과가 의미가 있고 (가상하지 않은) 클러스터 내 분산의 감소가 얼마나됩니까? 차원 적으로 축소 된 형태의 데이터가 그려 질 때 군집이 분명해야하고 군집을 시각화 할 수없는 …

6
t-SNE 출력에 대한 클러스터링
클러스터 내에서 하위 그룹 효과를 찾기 전에 시끄러운 데이터 세트를 클러스터링하는 것이 편리한 응용 프로그램이 있습니다. 먼저 PCA를 살펴 봤지만 변동성의 90 %에 도달하기 위해서는 ~ 30 개의 구성 요소가 필요하므로 단지 몇 대의 PC에서 클러스터링하면 많은 정보가 버려집니다. 그런 다음 t-SNE (처음으로)를 시도했는데, 이는 k- 평균을 통한 군집화에 매우 …

3
k- 평균 군집 분석 결과의 예쁜 플롯을 생성하는 방법은 무엇입니까?
K- 평균 군집화를 위해 R을 사용하고 있습니다. K- 평균을 실행하기 위해 14 개의 변수를 사용하고 있습니다 K- 평균의 결과를 나타내는 가장 좋은 방법은 무엇입니까? 기존 구현이 있습니까? 14 개의 변수가 있으면 결과를 작성하는 것이 복잡합니까? 멋져 보이는 GGcluster라는 것을 발견했지만 여전히 개발 중입니다. 나는 또한 sammon 매핑에 대해 읽었지만 그것을 …

6
k- 평균 군집 알고리즘이 유클리드 거리 측정법 만 사용하는 이유는 무엇입니까?
k- 평균 알고리즘이 거리 메트릭으로 코사인 (비 유사) 유사성을 사용하지 않고 유클리드 표준 만 사용할 수있는 효율성 또는 기능성 측면에서 특정 목적이 있습니까? 일반적으로 유클리드 이외의 다른 거리를 고려하거나 사용하는 경우 K- 평균 방법이 준수되고 정확합니까? [@ttnphns 추가. 문제는 두 가지입니다. "(비) 유클리드 거리"는 두 데이터 포인트 사이의 거리 또는 …

5
k- 평균 군집화와 PCA의 관계는 무엇입니까?
클러스터링 알고리즘 (예 : k- 평균) 전에 PCA (주성분 분석)를 적용하는 것이 일반적입니다. 실제로 클러스터링 결과를 향상시키는 것으로 여겨집니다 (소음 감소). 그러나 저는 PCA와 k- 평균의 관계에 대한 비교적이고 심층적 인 연구에 관심이 있습니다. 예를 들어 Chris Ding과 Xiaofeng He (2004 )는 Principal Component Analysis를 통한 K-means Clustering 은 "주요 …

10
올바른 클러스터 수를 결정하는 방법은 무엇입니까?
우리는 클러스터 센터를 찾고 k-means 클러스터링 에서 k 개의 다른 클러스터 빈에 포인트를 할당합니다.이 클러스터 는 매우 잘 알려진 알고리즘이며 거의 모든 기계 학습 패키지에서 찾을 수 있습니다. 그러나 내 생각에 빠지고 가장 중요한 부분은 올바른 k를 선택하는 것입니다. 가장 좋은 가치는 무엇입니까? 그리고, 무엇을 의미 최선 ? 나는 여기 …

3
K-Means 및 EM을 사용한 클러스터링 : 어떻게 관련되어 있습니까?
데이터 클러스터링 (비지도 학습) : EM 및 k- 평균 알고리즘을 연구했습니다. 나는 다음을 계속 읽습니다. k- 평균은 군집이 구형이라는 가정하에 EM의 변형입니다. 누군가 위의 문장을 설명 할 수 있습니까? 나는 구상 의미가 무엇인지, kmeans와 EM이 어떻게 관련되는지 이해하지 못합니다. 하나는 확률 론적 할당을 수행하고 다른 하나는 결정 론적 방식으로 수행하기 …

5
클러스터링하기 전에 데이터를 확장해야합니까?
이 튜토리얼을 찾았습니다. 클러스터링 전에 기능에서 스케일 기능을 실행해야한다고 제안합니다 (데이터가 z 점수로 변환된다고 생각합니다). 그것이 필요한지 궁금합니다. 데이터를 스케일링하지 않으면 멋진 팔꿈치 포인트가 있기 때문에 주로 묻습니다. 그러나 스케일링하면 사라집니다. :)


5
불연속 변수와 연속 변수를 사용하여 데이터 세트 클러스터링
10 차원을 갖는 데이터 세트 X가 있는데 그 중 4는 이산 값입니다. 실제로,이 4 개의 이산 변수는 순 서적입니다. 즉, 값이 클수록 의미가 높거나 높습니다. 이 불연속 변수 중 2 개는 이러한 변수 각각에 대해 11에서 12까지의 거리가 5에서 6까지의 거리와 동일하지 않다는 점에서 범주 형입니다. 반드시 선형 일 필요는 …

1
PCA가 k- 평균 군집 분석에 어떻게 도움이됩니까?
배경 : 도시의 주거 지역을 주택 단위 밀도, 인구 밀도, 녹지 면적, 주택 가격, 학교 수 / 보건소 / 보육 센터 등 사회 경제적 특성에 따라 그룹으로 분류하고 싶습니다. 주거 지역을 몇 개의 다른 그룹으로 나눌 수 있는지, 그리고 그들의 독특한 특징은 무엇인지 이해하고 싶습니다. 이 정보는 도시 계획을 용이하게 …

3
긴 문자열 (단어) 목록을 유사 그룹으로 클러스터링
다음과 같은 문제가 있습니다. 단어, 이름, 성 등 매우 긴 목록이 있습니다.이 단어 목록을 클러스터링하여 유사한 단어 (예 : 유사한 편집 (Levenshtein) 거리를 가진 단어가 동일한 클러스터. 예를 들어 "algorithm"과 "alogrithm"은 같은 클러스터에 나타날 가능성이 높습니다. 패턴 인식 문헌에서 k- 평균 군집화, EM 군집화와 같은 고전적인 감독되지 않은 군집 방법을 …

5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.