«k-means» 태그된 질문

k- 평균은 데이터가 가장 가까운 평균을 갖는 군집에 할당 될 때 지정된 수의 평균 k, st를 찾아서 군집으로 데이터를 분할하는 방법으로, 군집의 제곱합을 최소화합니다

1
표준 및 구형 k- 평균 알고리즘의 차이점
표준 및 구형 k- 평균 군집 알고리즘의 주요 구현 차이점은 무엇인지 이해하고 싶습니다. 각 단계에서 k- 평균은 요소 벡터와 군집 중심 사이의 거리를 계산하고 중심이 가장 가까운 군집에 문서를 재 할당합니다. 그런 다음 모든 중심이 다시 계산됩니다. 구형 k- 평균에서는 모든 벡터가 정규화되고 거리 측정 값은 코사인 비 유사성입니다. 그게 …

2
클러스터링에서 이진 변수와 연속 변수를 함께 사용하는 방법은 무엇입니까?
k- 평균으로 이진 변수 (값 0 및 1)를 사용해야합니다. 그러나 k- 평균은 연속 변수에서만 작동합니다. k-means가 연속 변수 전용이라는 사실을 무시하고 일부 사람들은 여전히 ​​k-means에서이 이진 변수를 사용한다는 것을 알고 있습니다. 이것은 받아 들일 수 없습니다. 질문 : k- 평균 / 계층 군집화에서 이진 변수를 사용하는 통계적 / 수학적으로 올바른 …

5
각 클러스터의 포인트 수가 동일한 클러스터링 절차?
점이 있습니다. . . , x n }X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\} 에서 하고 포인트를 클러스터링하여 다음과 같이합니다.RpRpR^p 각 군집에는 동일한 수의 요소가 포함 됩니다. (클러스터 수가 나눈다 고 가정합니다 .)XXXnnn 각 군집은 평균 의 군집과 같은 의미에서 "공간적으로 응집력이 있습니다" .kkk 이 중 하나를 만족시키는 많은 클러스터링 절차를 생각하기는 쉽지만 누구나 한 번에 …

3
데이터베이스에서 1D 데이터의 다른 클러스터 결정
다른 노드 간 데이터 전송 데이터베이스 테이블이 있습니다. 이것은 거의 4 천만 건의 전송이 가능한 거대한 데이터베이스입니다. 속성 중 하나는 0 바이트에서 2 테라 바이트 사이의 바이트 수 (nbytes) 전송입니다. 주어진 k 클러스터에 일부 x1 전송이 k1 클러스터에 속하고 x2 변환기가 k2 등에 속하도록 nbyte를 클러스터링하고 싶습니다. 내가 사용한 용어에서 …

8
특징 별 데이터가 아닌 거리 행렬만으로 K- 평균 (또는 가까운 친척) 클러스터링 수행
내가 가진 객체에서 K- 평균 군집화를 수행하고 싶지만 객체가 공간의 포인트, 즉 objects x features데이터 세트 로 설명되지 않습니다 . 그러나 두 객체 사이의 거리를 계산할 수 있습니다 (유사 기능을 기반으로 함). 그래서 나는 거리 행렬을 폐기합니다 objects x objects. 이전에 K- 평균을 구현했지만 포인트 데이터 세트 입력이있었습니다. 거리 매트릭스 …

2
k- 평균 군집화가 가우스 혼합 모델링의 한 형태 인 경우 데이터가 정상적이지 않을 때 사용할 수 있습니까?
GMM에 대한 EM 알고리즘과 GMM과 k- 평균 간의 관계에 대한 Bishop을 읽고 있습니다. 이 책에서는 k-means가 GMM의 하드 할당 버전이라고 말합니다. 클러스터링하려는 데이터가 가우시안이 아닌 경우 k- 평균을 사용할 수 없거나 적어도 사용하기에 적합하지 않다는 것을 궁금합니다. 예를 들어, 데이터가 각각 0 또는 1의 값을 가진 8 * 8 픽셀로 …

4
상관 행렬 클러스터링
모든 항목이 다른 항목과 어떻게 관련되는지를 나타내는 상관 관계 매트릭스가 있습니다. 따라서 N 항목의 경우 이미 N * N 상관 행렬이 있습니다. 이 상관 관계 매트릭스를 사용하여 k 번째 빈의 Nk 항목이 동일하게 작동하도록 M 빈의 N 항목을 클러스터링하는 방법은 무엇입니까? 친절하게 도와주세요. 모든 항목 값은 범주 형입니다. 감사. 더 …

2
k- 평균의 수렴 증명
과제의 경우 k- 평균이 유한 한 단계로 수렴한다는 증거를 제공하라는 요청을 받았습니다. 이것이 내가 쓴 것입니다 : 다음에서 CCC 는 모든 클러스터 센터의 모음입니다. “에너지”함수를 정의하십시오. 에너지 함수는 음이 아닙니다. 알고리즘의 단계 (2)와 (3)이 모두 에너지를 감소시키는 것을 볼 수 있습니다. 에너지는 아래에서 묶여 있고 지속적으로 줄어들 기 때문에 지역 …

4
계층 적 클러스터링의 단점을 이해하는 방법?
누군가 계층 적 클러스터링의 장단점을 설명 할 수 있습니까? 계층 적 군집화에는 K와 같은 단점이 있습니까? K 평균에 비해 계층 적 클러스터링의 장점은 무엇입니까? 우리는 언제 계층 적 클러스터링보다 K 수단을 사용해야합니까? 이 게시물에 대한 답변은 k의 단점을 잘 설명합니다. K- 평균의 단점을 이해하는 방법


3
k- 평균의 갭 통계가 왜 두 군집이 있는데도 하나의 군집을 제안합니까?
K- 평균을 사용하여 데이터를 클러스터링하고 "최적의"클러스터 번호를 제안하는 방법을 찾고있었습니다. 갭 통계는 좋은 클러스터 번호를 찾는 일반적인 방법 인 것 같습니다. 어떤 이유로 든 최적의 클러스터 번호로 1을 반환하지만 데이터를 볼 때 2 개의 클러스터가 있음이 분명합니다. 이것이 R에서 간격을 부르는 방법입니다. gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], …


5
k- 평균이 왜 세계 최소값을 제공하지 않습니까?
k- 평균 알고리즘은 전역 최소값이 아닌 로컬 최소값으로 만 수렴된다는 것을 읽었습니다. 왜 이런거야? 논리적으로 초기화가 최종 클러스터링에 영향을 줄 수있는 방법을 생각할 수 있으며 하위 최적 클러스터링의 가능성이 있지만 수학적으로 증명할 수있는 것은 찾지 못했습니다. 또한 k- 평균은 왜 반복 과정입니까? 목적 함수 wrt를 중심과 부분적으로 구별 할 수없고,이 …

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
차원 저주가 일부 모델보다 다른 모델에 영향을 줍니까?
치수 저주에 대해 읽은 장소는 주로 kNN 및 선형 모델과 관련하여 설명합니다. 나는 100k 데이터 포인트가 거의없는 데이터 세트의 수천 가지 기능을 사용하여 Kaggle에서 최고 순위를 정기적으로 봅니다. 그들은 주로 Boosted tree와 NN을 사용합니다. 많은 기능이 너무 높아 보이며 차원 저주의 영향을받는다고 생각합니다. 그러나 이러한 모델이 경쟁에서 최고가 되었기 때문에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.