«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

2
R의 비모수 적 베이지안 분석
RHDP (Hierarchical Dirichlet Process) (최근의 인기있는 비모수 적 베이지안 방법 중 하나) 를 사용하여 데이터를 클러스터링하는 방법에 대한 유용한 자습서를 찾고 있습니다. 가 DPpackage에 (IMHO, 가능한 모든 것들의 가장 포괄적 인) R비모수 베이지안 분석은. 그러나 R NewsHDP를 코딩하기에 충분히 또는 패키지 참조 매뉴얼에 제공된 예제를 이해할 수 없습니다 . 도움이나 …

1
Python의 Jenks Natural Breaks : 최적의 휴식 수를 찾는 방법은 무엇입니까?
Jenks Natural Breaks 알고리즘 의이 Python 구현 을 발견 했으며 Windows 7 컴퓨터에서 실행할 수 있습니다. 꽤 빠르며 지리 데이터의 크기를 고려하여 몇 시간 만에 중단 점을 찾습니다. 내 데이터에이 클러스터링 알고리즘을 사용하기 전에 (여기) 알고리즘을 사용하고있었습니다. KMeans와 관련된 문제는 최적의 K 값 매개 변수를 찾는 것이었지만 다른 K 값에 …


5
k- 평균이 왜 세계 최소값을 제공하지 않습니까?
k- 평균 알고리즘은 전역 최소값이 아닌 로컬 최소값으로 만 수렴된다는 것을 읽었습니다. 왜 이런거야? 논리적으로 초기화가 최종 클러스터링에 영향을 줄 수있는 방법을 생각할 수 있으며 하위 최적 클러스터링의 가능성이 있지만 수학적으로 증명할 수있는 것은 찾지 못했습니다. 또한 k- 평균은 왜 반복 과정입니까? 목적 함수 wrt를 중심과 부분적으로 구별 할 수없고,이 …


3
hclust ()의 ward.D가 Ward의 기준이 아닌 경우 어떤 알고리즘을 구현합니까?
"ward.D"옵션 (R 버전 <= 3.0.3의 유일한 Ward 옵션 "ward"와 동일)이 사용하는 것은 Ward의 (1963) 클러스터링 기준을 구현하지 않지만 "ward.D2"옵션은 해당 기준을 구현합니다 ( Murtagh and Legendre 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) 분명히 와드 .D는 와드의 기준을 제대로 이행하지 못한다. 그럼에도 불구하고 그것이 생성하는 클러스터링과 관련하여 좋은 일을하는 것처럼 보입니다. method = …
16 r  clustering  ward 

4
1D 데이터 클러스터링
데이터 세트가 있는데 하나의 변수만을 기준으로 해당 데이터에 클러스터를 만들고 싶습니다 (결측 값이 없음). 하나의 변수를 기반으로 3 개의 클러스터를 만들고 싶습니다. 어떤 클러스터링 알고리즘, k- 평균, EM, DBSCAN 등을 사용해야합니까? 내 주요 질문은 어떤 상황에서 EM보다 k- 평균을 사용하거나 k- 평균보다 EM을 사용해야합니까?
16 clustering 

2
차원 축소를 클러스터링과 언제 결합합니까?
문서 수준 클러스터링을 수행하려고합니다. 용어 문서 주파수 행렬을 구성했으며 k- 평균을 사용하여 이러한 고차원 벡터를 군집화하려고합니다. 직접 클러스터링 대신, 먼저 LSA (Latent Semantic Analysis) 특이 벡터 분해를 적용하여 U, S, Vt 행렬을 구하고, scree plot을 사용하여 적절한 임계 값을 선택하고 축소 된 행렬에 클러스터링을 적용했습니다 (특히 Vt 그것은 나에게 좋은 …

4
군집 분석 가정
초보적인 질문에 대한 사과, 나는이 형태의 분석에 익숙하지 않으며 지금까지 원리에 대한 이해가 매우 제한적입니다. 다변량 / 단 변량 검정에 대한 많은 파라 메트릭 가정이 군집 분석에 적용되는지 궁금합니다. 클러스터 분석과 관련하여 읽은 많은 정보 소스는 가정을 지정하지 않습니다. 특히 관측의 독립성에 관심이 있습니다. 내 이해는이 가정 (예 : ANOVA …

1
lmer 모델에 사용할 다중 비교 방법 : lsmeans 또는 glht?
하나의 고정 효과 (조건)와 두 개의 임의 효과 (대상 내 설계 및 쌍으로 인해 참가자)가있는 혼합 효과 모델을 사용하여 데이터 세트를 분석하고 있습니다. lme4패키지로 모델이 생성되었습니다 exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). 다음으로, 고정 효과 (조건)없이 모형에 대해이 모형의 우도 비 검정을 수행했으며 유의 한 차이가 있습니다. 내 데이터 세트에는 3 가지 조건이 있으므로 다중 …


4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
텍스트 마이닝 : 인공 지능으로 텍스트 (예 : 뉴스 기사)를 클러스터링하는 방법?
나는 탁구 연주, 필기 숫자 및 물건 분류와 같은 다양한 작업을 위해 일부 신경망 (MLP (완전히 연결되어 있음), Elman (반복))을 만들었습니다. 또한 여러 자필 필기 노트를 분류하기 위해 첫 번째 회선 신경망을 구축하려고 시도했지만 25x25 크기의 이미지와 같은 표준화 된 입력에 의존 할 수있는 이미지 인식 / 클러스터링 작업에서 텍스트를 …

2
클러스터링을위한 혼합 모델을 맞추는 방법
나는 X와 Y의 두 변수를 가지고 클러스터를 최대 (및 최적) = 5로 만들어야합니다. 변수의 이상적인 플롯은 다음과 같습니다. 이 클러스터를 5 개 만들고 싶습니다. 이 같은: 따라서 이것이 5 개의 군집을 가진 혼합 모형이라고 생각합니다. 각 군집에는 중심점이 있고 그 주위에 신뢰 원이 있습니다. 클러스터는 항상 이와 같은 것은 아니며 …

1
귀무 가설 하에서 교환 가능한 샘플의 직관은 무엇입니까?
순열 검정 (랜덤 화 검정, 재 랜덤 화 검정 또는 정확한 검정이라고도 함)은 매우 유용하며, 예를 들어 요구되는 정규 분포 가정이 t-test충족되지 않고 순위에 따라 값을 변환 할 때 유용합니다. 비모수 테스트 Mann-Whitney-U-test는 더 많은 정보가 손실 될 수 있습니다. 그러나 이러한 종류의 테스트를 사용할 때 단 하나의 가정 만 …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.