«k-means» 태그된 질문

k- 평균은 데이터가 가장 가까운 평균을 갖는 군집에 할당 될 때 지정된 수의 평균 k, st를 찾아서 군집으로 데이터를 분할하는 방법으로, 군집의 제곱합을 최소화합니다

2
R에서 k- 평균 군집화 결과 해석
kmeansAnderson의 홍채 데이터 세트에서 k- 평균 알고리즘을 수행하기 위해 R 의 명령을 사용하고있었습니다 . 내가 얻은 일부 매개 변수에 대한 질문이 있습니다. 결과는 다음과 같습니다. Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 이 경우 "클러스터 의미"는 무엇을 의미합니까? 클러스터 내 모든 객체의 거리의 평균입니까? 또한 마지막 …


4
k- 평균에서 최적의 k가없는 경우가 있습니까?
이것은 적어도 몇 시간 동안 내 마음 속에있었습니다. k- 평균 알고리즘 ( 코사인 유사성 메트릭 사용 ) 의 출력에 대한 최적의 k를 찾으려고 노력 했기 때문에 클러스터 수의 함수로 왜곡을 플로팅했습니다. 내 데이터 세트는 600 차원 공간에 800 개의 문서를 모은 것입니다. 내가 이해 한 바에 따르면,이 곡선에서 무릎 점 …

3
K- 평균 군집화를 초기화하는 방법
K- 평균의 초기 종자 (클러스터 센터)를 선택하는 현재의 최신 기술에 관심이 있습니다. 인터넷 검색은 두 가지 인기있는 선택으로 이어집니다. 초기 종자의 무작위 선택 및 KMeans ++ 선택 기법 사용 : Arthur & Vassilvitskii 2006 k-means ++ :주의 깊은 시딩의 장점 여기에 아무도 모르는 다른 유망한 방법이 있습니까?

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
거대한 이진 데이터 집합을 몇 가지 범주로 클러스터링하려면 어떤 알고리즘을 사용해야합니까?
바이너리 데이터 (0-1 항목 만)의 큰 (650K 행 * 62 열) 행렬이 있습니다. 매트릭스는 대부분 희박합니다. 약 8 %가 채워집니다. 1에서 5로 명명 된 5 개의 그룹으로 클러스터링하고 싶습니다. 계층 적 클러스터링을 시도했지만 크기를 처리 할 수 ​​없었습니다. 또한 길이 62의 650K 비트 벡터를 고려하여 해밍 거리 기반 k- 평균 …

2
매우 비뚤어진 카운트 데이터의 클러스터링 : 수행 할 제안 (변환 등)이 있습니까?
기본 문제 기본 문제는 다음과 같습니다. 매우 치우친 변수가 포함 된 데이터 세트를 개수로 묶으려고합니다. 변수는 많은 0을 포함하므로 클러스터링 절차에 대한 정보가 많지 않습니다. k- 평균 알고리즘 일 가능성이 큽니다. 예를 들어, 제곱근, 박스 콕스 또는 로그를 사용하여 변수를 변환하면됩니다. 그러나 내 변수는 범주 형 변수를 기반으로하기 때문에 변수를 …


3
코사인 유사성 대 유클리드 거리 (LSA)에 대한 K- 평균
낮은 차원 공간에서 문서 모음을 나타 내기 위해 잠재 의미 분석을 사용하고 있습니다. k- 평균을 사용하여 이러한 문서를 두 그룹으로 묶고 싶습니다. 몇 년 전, 나는 파이썬의 gensim을 사용하여 내 k- 평균 알고리즘을 작성 하여이 작업을 수행했습니다. 유클리드 거리를 사용하여 군집 중심을 결정한 다음 중심과 코사인 유사성을 기반으로 각 문서를 …

3
k- 평균 군집에 클래스 레이블 할당
클러스터링에 대한 매우 기본적인 질문이 있습니다. 중심이있는 k 개의 군집을 찾은 후 군집화 한 데이터 요소의 클래스를 해석하는 방법 (각 군집에 의미있는 등급 레이블 지정)은 어떻게합니까? 발견 된 클러스터의 유효성 검사에 대해 이야기하고 있지 않습니다. 레이블이 지정된 작은 데이터 포인트 세트를 수행하고 레이블이 지정된 포인트가 속하는 클러스터를 계산하고 각 클러스터가 …
10 k-means 

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
K- 평균 : 실제 상황에서 얼마나 많은 반복이 있습니까?
데이터 마이닝 또는 빅 데이터에 대한 업계 경험이 없으므로 경험을 공유하는 것을 듣고 싶습니다. 사람들이 실제로 큰 데이터 세트에서 k- 평균, PAM, CLARA 등을 실행합니까? 아니면 무작위로 샘플을 추출합니까? 데이터 집합의 샘플 만 가져 오는 경우 데이터 집합이 정규 분포를 따르지 않으면 결과가 신뢰할 수 있습니까? 이러한 알고리즘을 실행할 때 …

2
작은 샘플 집합의 부울 기능에 대한 PCA와 스펙트럼 클러스터링의 차이점
50 샘플의 데이터 세트가 있습니다. 각 샘플은 11 개의 상관 관계가있는 부울 피처로 구성됩니다. 2D 플롯에서 이러한 샘플을 시각화하고 50 개의 샘플 중 클러스터 / 그룹이 있는지 조사하고 싶습니다. 나는 다음 두 가지 접근법을 시도했다. (a) 50x11 매트릭스에서 PCA를 실행하고 처음 두 주요 구성 요소를 선택하십시오. 데이터를 2D 플롯에 투영하고 …


2
아이스크림 판매 대 온도의이 PCA 플롯 이해
나는 온도 대 아이스크림 판매에 대한 더미 데이터를 가져 와서 K Means (n ​​clusters = 2)를 사용하여 두 범주 (총 더미)를 구별하여 분류했습니다. 이제이 데이터에 대한 주요 구성 요소 분석을 수행하고 있으며 목표는 내가 본 것을 이해하는 것입니다. PCA의 목표는 차원을 줄이고 (이 경우는 아님) 요소의 분산을 보여주는 것입니다. 그러나 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.