«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

4
k- 평균의 구현을 어떻게 테스트합니까?
면책 조항 : 나는이 질문을 Stackoverflow에 게시했지만 이것이이 플랫폼에 더 적합하다고 생각했습니다. 다차원 데이터 세트에 대한 고유 한 k- 평균 구현을 어떻게 테스트합니까? 데이터에 이미 존재하는 구현 (예 : Matlab)을 실행하고 결과를 내 알고리즘과 비교할 생각이었습니다. 그러나 이것은 두 알고리즘이 거의 동일하게 작동해야하며 두 결과 사이의 매핑은 아마도 케이크 조각이 …

2
매우 비뚤어진 카운트 데이터의 클러스터링 : 수행 할 제안 (변환 등)이 있습니까?
기본 문제 기본 문제는 다음과 같습니다. 매우 치우친 변수가 포함 된 데이터 세트를 개수로 묶으려고합니다. 변수는 많은 0을 포함하므로 클러스터링 절차에 대한 정보가 많지 않습니다. k- 평균 알고리즘 일 가능성이 큽니다. 예를 들어, 제곱근, 박스 콕스 또는 로그를 사용하여 변수를 변환하면됩니다. 그러나 내 변수는 범주 형 변수를 기반으로하기 때문에 변수를 …

1
U- 매트릭스를 자동으로 클러스터링하는 방법?
자체 구성 맵을 학습 한 후 U- 매트릭스를 계산할 수 있습니다 . 있다 몇 가지 도구 를 수동으로 시각화하고 클러스터를 식별 할 수는 있지만, (즉, 클러스터를 식별하기 위해 그림을보고 인간을 가지고 있지) 자동 방법으로이 과정을 할 수있는 알고리즘이 있는지 궁금 하군요. 이것을 할 수있는 방법이 있습니까? R로 코드를 작성하고 있습니다. …

3
범주 형 변수의 대중적이거나 일반적인 조합을 찾기 위해 사용할 수있는 통계적 방법은 무엇입니까?
polydrug 사용에 관한 연구를하고 있습니다. 400 명의 마약 중독자에 대한 데이터 세트가 있는데, 이들은 각각 자신이 남용하는 약물을 언급했습니다. 10 가지가 넘는 약물이 있으므로 가능한 큰 조합이 있습니다. 나는 그들이 소비하는 약물의 대부분을 이진 변수로 기록했다. 2 가지 또는 3 가지 약물의 대중적이거나 일반적인 조합을 찾고 싶습니다. 사용할 수있는 통계적 …

1
TF-IDF 로그에서 로그 사용 이해
나는 읽고 있었다: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 그러나 수식이 왜 원래대로 구성되었는지 정확히 이해할 수없는 것 같습니다. 내가 이해하는 것 : iDF는 어떤 수준에서 용어 S가 각 문서에 나타나는 빈도를 측정해야하며, 용어가 더 자주 나타날수록 가치가 감소합니다. 그 관점에서 나는 D F( S) = # 문서의# S를 포함하는 서류나는디에프(에스)=# 문서# S가 포함 된 …

3
"R"에서 그래프 클러스터링의 접근 및 예
'r'의 그래프 클러스터링을 사용하여 그래프에서 노드를 그룹화 / 병합하려고합니다. 여기 내 문제의 놀랍도록 장난감 변형이 있습니다. 두 개의 "클러스터"가 있습니다 클러스터를 연결하는 "브리지"가 있습니다 후보 네트워크는 다음과 같습니다. 연결 거리 "hopcount"를 보면 다음 행렬을 얻을 수 있습니다. mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) …

1
GAP 통계를 어떻게 해석해야합니까?
나는 RAP에서 k 개의 군집을 추정하기 위해 GAP 통계를 사용했지만 잘 해석할지는 확실하지 않습니다. 위의 플롯에서 3 개의 클러스터를 사용해야한다고 가정합니다. 두 번째 줄거리에서 6 개의 클러스터를 선택해야합니다. GAP 통계에 대한 올바른 해석입니까? 설명해 주셔서 감사합니다.
10 clustering 


2
비모수 적 군집화를위한 PyMC : 가우스 혼합의 매개 변수를 추정하기위한 Dirichlet 프로세스가 군집하지 못함
문제 설정 PyMC를 적용하려는 첫 번째 장난감 문제 중 하나는 비모수 적 군집입니다. 일부 데이터를 제공하고이를 가우스 혼합으로 모델링하고 군집 수와 각 군집의 평균 및 공분산을 배웁니다. 내가이 방법에 대해 알고있는 대부분의 내용은 2007 년경 Michael Jordan과 Yee Whye Teh의 비디오 강의 (스팀이 격렬 해지기 전에)와 Fonnesbeck 박사와 E. Chen의 …

3
모집단 R 제곱 변경에 대한 신뢰 구간을 얻는 방법
간단한 예제를 위해 두 개의 선형 회귀 모델이 있다고 가정합니다. 모델 1은이 세 가지 예측, x1a, x2b, 및x2c 모형 2에는 모형 1의 예측 변수 3 개와 추가 예측 변수 2 개가 x2a있으며x2b 설명 된 모집단 분산이 모형 1의 경우 ρ2( 1 )ρ(1)2\rho^2_{(1)} 이고 모형 2의 경우 모집단 회귀 방정식이 있습니다. …

2
고정 거리 내에서 포인트 수를 최대화하는 알려진 수의 원 중심 찾기
지정된 거리 ( ) 내의 총 점 수를 최대화 하는 지정된 수의 원 중심 ( ) 의 중심을 찾으려는 2D 데이터 세트가 있습니다 .R엔NN아르 자형RR 예를 들어 10,000 데이터 포인트 있고 반경 내에서 가능한 한 많은 포인트를 캡처하는 원 의 중심을 찾고 싶습니다 . 5 개의 중심과 10의 반경은 데이터에서 …
10 r  clustering  distance 

1
실루엣 너비가 낮 으면 데이터에 기본 구조가 거의 없음을 의미합니까?
나는 시퀀스 분석을 처음 접했고, Optimal Matching 기반 비 유사성 매트릭스의 군집 분석에서 평균 실루엣 폭 (ASW)이 낮 으면 (약 25) 어떻게 반응하는지 궁금합니다. 시퀀스를 클러스터링 할 수있는 기본 구조가 거의 없다고 결론을내는 것이 적절합니까? 다른 클러스터 품질 측정 기준에 따라 낮은 ASW를 무시할 수 있습니까 (아래에 붙여 넣었습니다)? 또는 …

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
1 차 Markov 체인의 클러스터 평가
수천 개의 1 차 Markov 체인의 데이터 세트를 약 10 개의 클러스터로 클러스터링했습니다. 이러한 클러스터를 평가하고 클러스터의 항목이 공유하고 다른 클러스터와 어떻게 다른지 알아낼 수있는 권장 방법이 있습니까? 따라서 "클러스터 A의 프로세스는 일단 도착하면 상태 Y를 유지하는 경향이 있습니다. 이는 다른 클러스터의 프로세스에는 해당되지 않습니다." 이러한 Markov 체인의 전이 행렬은 …

1
덴드로 그램 클러스터링에 대한 공동 현상 상관 관계
덴드로 그램 클러스터링의 컨텍스트를 고려하십시오. 우리가 부르 자 원래의 비 유사성에게 개인 사이의 거리를. 덴드로 그램을 구성한 후, 우리는 이 개인들이 속한 클러스터들 사이의 거리로서 두 개인들 사이 의 공 재적 비 유사성 을 정의합니다 . 일부 사람들은 원래의 비 유사성과 코페 네틱 비 유사성 ( 코페 네틱 상관 )이 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.