«hierarchical-clustering» 태그된 질문

3
클러스터링 방법을 선택하는 방법은 무엇입니까? 방법 선택을 보장하기 위해 클러스터 솔루션의 유효성을 검사하는 방법은 무엇입니까?
군집 분석의 가장 큰 문제 중 하나는 사용 된 다른 군집 방법 (계층 군집의 다른 연결 방법 포함)을 기반으로 다른 결론을 도출해야 할 수도 있다는 것 입니다. 이 방법 에 대한 귀하의 의견을 알고 싶습니다- 어떤 방법을 선택하고 어떻게 해야합니까 ? "클러스터링의 가장 좋은 방법은 정답을 제공하는 것입니다."라고 말할 수 …

2
계층 적 클러스터링을위한 올바른 연계 방법 선택
Google BigQuery의 레딧 데이터 덤프에서 수집하고 처리 한 데이터에 대해 계층 적 클러스터링 을 수행 하고 있습니다. 내 프로세스는 다음과 같습니다. / r / politics에서 최신 1000 개의 게시물 가져 오기 모든 의견 수집 데이터 처리 및 n x m데이터 매트릭스 계산 (n : 사용자 / 샘플, m : 포스트 …

3
계층 적 군집 분석의 덴드로 그램을 해석하는 방법
아래의 R 예를 고려하십시오. plot( hclust(dist(USArrests), "ave") ) y 축 "높이"는 정확히 무엇을 의미합니까? 노스 캐롤라이나와 캘리포니아 (왼쪽이 아닌)를 봅니다. 캘리포니아는 애리조나보다 노스 캐롤라이나와 "가까이"있습니까? 이 해석을 할 수 있습니까? 하와이 (오른쪽)가 클러스터에 다소 늦게 참여합니다. 다른 주보다 "높은"것으로 볼 수 있습니다. 일반적으로 덴드로 그램에서 레이블이 "높은"또는 "낮은"사실을 어떻게 해석 …

1
거리 메트릭으로 상관 관계 사용 (계층 적 클러스터링의 경우)
데이터를 계층 적으로 클러스터하고 싶지만 유클리드 거리를 사용하는 대신 상관 관계를 사용하고 싶습니다. 또한 상관 계수의 범위는 -1에서 1까지이며, 연구에서 -1과 1이 모두 "공-조절"을 나타내므로 -1과 1을 d = 0으로 취급합니다. 따라서 계산은 d=1−|r| d=1−|r|\ d = 1-|r| 나는 코사인 정리를 사용하여 r 을 진정한 유클리드 d 로 변환해야한다는 별도의 …

4
계층 적 클러스터링의 단점을 이해하는 방법?
누군가 계층 적 클러스터링의 장단점을 설명 할 수 있습니까? 계층 적 군집화에는 K와 같은 단점이 있습니까? K 평균에 비해 계층 적 클러스터링의 장점은 무엇입니까? 우리는 언제 계층 적 클러스터링보다 K 수단을 사용해야합니까? 이 게시물에 대한 답변은 k의 단점을 잘 설명합니다. K- 평균의 단점을 이해하는 방법

2
클러스터링 — Kleinberg의 불가능 성 정리의 직관
클러스터링의 어려움을 탐구하는 Kleinberg (2002) 의이 흥미로운 분석에 대한 블로그 게시물을 작성하려고 생각했습니다 . Kleinberg는 군집화 기능에 대한 직관적으로 보이는 세 가지 욕구를 요약 한 다음 해당 기능이 없음을 증명합니다. 세 가지 기준 중 두 가지를 만족시키는 많은 클러스터링 알고리즘이 있습니다. 그러나 세 기능을 동시에 만족시킬 수있는 기능은 없습니다. 간략하고 …

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
계층 적 군집이 유효하기 위해서는 거리가 "메트릭"이어야합니까?
N 개의 항목 사이 의 거리 ( 메트릭 이 아님)를 정의한다고 가정하겠습니다 . 이 거리를 바탕으로 우리는 집단 계층 적 군집 을 사용 합니다 . 의미있는 결과를 얻기 위해 알려진 각 알고리즘 (단일 / 최대 / 평균 연결 등)을 사용할 수 있습니까? 다르게 말하면, 거리가 미터가 아닌 경우이를 사용하는 데 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.