«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

5
불연속 변수와 연속 변수를 사용하여 데이터 세트 클러스터링
10 차원을 갖는 데이터 세트 X가 있는데 그 중 4는 이산 값입니다. 실제로,이 4 개의 이산 변수는 순 서적입니다. 즉, 값이 클수록 의미가 높거나 높습니다. 이 불연속 변수 중 2 개는 이러한 변수 각각에 대해 11에서 12까지의 거리가 5에서 6까지의 거리와 동일하지 않다는 점에서 범주 형입니다. 반드시 선형 일 필요는 …

2
계층 적 클러스터링을위한 올바른 연계 방법 선택
Google BigQuery의 레딧 데이터 덤프에서 수집하고 처리 한 데이터에 대해 계층 적 클러스터링 을 수행 하고 있습니다. 내 프로세스는 다음과 같습니다. / r / politics에서 최신 1000 개의 게시물 가져 오기 모든 의견 수집 데이터 처리 및 n x m데이터 매트릭스 계산 (n : 사용자 / 샘플, m : 포스트 …

1
PCA가 k- 평균 군집 분석에 어떻게 도움이됩니까?
배경 : 도시의 주거 지역을 주택 단위 밀도, 인구 밀도, 녹지 면적, 주택 가격, 학교 수 / 보건소 / 보육 센터 등 사회 경제적 특성에 따라 그룹으로 분류하고 싶습니다. 주거 지역을 몇 개의 다른 그룹으로 나눌 수 있는지, 그리고 그들의 독특한 특징은 무엇인지 이해하고 싶습니다. 이 정보는 도시 계획을 용이하게 …

3
집약적 계층 적 군집화에 대한 어떤 정지 기준이 실제로 사용됩니까?
모든 종류의 기준을 제안하는 광범위한 문헌을 발견했습니다 (예 : Glenn et al. 1985 (pdf) 및 Jung et al. 2002 (pdf)). 그러나 이들 중 대부분은 구현하기 쉽지 않습니다 (적어도 내 관점에서는). 내가 사용하고 scipy.cluster.hierarchy를 클러스터 계층 구조를 얻기 위해, 나는 지금부터 플랫 클러스터를 형성하는 방법을 결정하는 것을 시도하고있다. 내 목표는 관찰에서 …
32 clustering 

3
긴 문자열 (단어) 목록을 유사 그룹으로 클러스터링
다음과 같은 문제가 있습니다. 단어, 이름, 성 등 매우 긴 목록이 있습니다.이 단어 목록을 클러스터링하여 유사한 단어 (예 : 유사한 편집 (Levenshtein) 거리를 가진 단어가 동일한 클러스터. 예를 들어 "algorithm"과 "alogrithm"은 같은 클러스터에 나타날 가능성이 높습니다. 패턴 인식 문헌에서 k- 평균 군집화, EM 군집화와 같은 고전적인 감독되지 않은 군집 방법을 …

3
잠재 클래스 분석 대 군집 분석-추론의 차이?
잠재 분류 분석 (LCA)과 군집 분석에서 도출 할 수있는 추론의 차이점은 무엇입니까? LCA가 클래스를 생성하는 기본 잠재 변수를 가정하는 반면, 클러스터 분석은 클러스터링 알고리즘의 상관 속성에 대한 경험적 설명입니다. 사회 과학에서 LCA는 인기를 얻었으며 클러스터 분석이 수행하지 않는 공식적인 카이-제곱 유의성 검정이 있기 때문에 방법 론적으로 우수하다고 간주됩니다. "LCA는 이것에 …

5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
다른 거리와 방법으로 얻은 계층 적 군집 덴드로 그램 비교
[초기 제목 "계층 적 클러스터링 트리의 유사성 측정"은 나중에 주제를 더 잘 반영하기 위해 @ttnphns에 의해 변경됨] 환자 기록의 데이터 프레임에서 여러 계층 적 클러스터 분석 을 수행하고 있습니다 (예 : http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y 와 유사 ) 나무의 최종 군집 / 구조 /보기 (dendrogram)에 미치는 영향을 이해하기 위해 다른 거리 측정, 다른 …

1
lmer 모델의 효과 반복 계산
방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
표준 및 구형 k- 평균 알고리즘의 차이점
표준 및 구형 k- 평균 군집 알고리즘의 주요 구현 차이점은 무엇인지 이해하고 싶습니다. 각 단계에서 k- 평균은 요소 벡터와 군집 중심 사이의 거리를 계산하고 중심이 가장 가까운 군집에 문서를 재 할당합니다. 그런 다음 모든 중심이 다시 계산됩니다. 구형 k- 평균에서는 모든 벡터가 정규화되고 거리 측정 값은 코사인 비 유사성입니다. 그게 …

4
R에서 차원 축소를 수행하는 방법
a (i, j)가 개별 페이지 j를 몇 번 본지를 알려주는 행렬이 있습니다. 27K 개인과 95K 페이지가 있습니다. 나는 종종 함께 볼 수있는 페이지 세트에 해당하는 페이지 공간에 소수의 "치수"또는 "종횡비"를 갖고 싶습니다. 저의 궁극적 인 목표는 개인이 1, 2, 등의 페이지를 얼마나 자주 본지 계산하는 것입니다. 주요 구성 요소 분석 …

2
클러스터링에서 이진 변수와 연속 변수를 함께 사용하는 방법은 무엇입니까?
k- 평균으로 이진 변수 (값 0 및 1)를 사용해야합니다. 그러나 k- 평균은 연속 변수에서만 작동합니다. k-means가 연속 변수 전용이라는 사실을 무시하고 일부 사람들은 여전히 ​​k-means에서이 이진 변수를 사용한다는 것을 알고 있습니다. 이것은 받아 들일 수 없습니다. 질문 : k- 평균 / 계층 군집화에서 이진 변수를 사용하는 통계적 / 수학적으로 올바른 …

3
중심을 찾는 것이 평균을 찾는 것과 어떻게 다릅니 까?
계층 적 클러스터링을 수행 할 때 많은 메트릭을 사용하여 클러스터 간의 거리를 측정 할 수 있습니다. 이러한 두 가지 메트릭은 클러스터의 중심점 및 데이터 포인트의 평균을 의미합니다. 평균과 중심의 차이점은 무엇입니까? 클러스터에서 동일한 지점이 아닙니까?
26 clustering  mean 

3
LSA 및 PCA (문서 클러스터링)
문서 클러스터링에 사용되는 다양한 기술을 조사하고 있으며 PCA (주요 구성 요소 분석) 및 LSA (잠재적 의미 분석)와 관련된 몇 가지 의문을 해결하고 싶습니다. 첫 번째-차이점은 무엇입니까? PCA에서 SVD 분해는 항 공분산 행렬에 적용되는 반면 LSA에서는 항 문서 행렬입니다. 다른 것이 있습니까? 둘째-문서 클러스터링 절차에서 그들의 역할은 무엇입니까? 지금까지 읽은 내용을 …

1
Calinski & Harabasz (CH) 기준의 허용 가능한 값은 무엇입니까?
R과 kml 패키지를 사용하여 종단 데이터를 군집화 하려는 데이터 분석을 수행했습니다 . 내 데이터에는 약 400 개의 개별 궤적이 포함되어 있습니다 (서류에 언급되어 있음). 다음 그림에서 내 결과를 볼 수 있습니다. 해당 논문 에서 2.2 장 "최적의 군집 선택"을 읽은 후 아무런 답을 얻지 못했습니다. 3 개의 군집을 선호하지만 결과는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.