«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

3
K-Means 및 EM을 사용한 클러스터링 : 어떻게 관련되어 있습니까?
데이터 클러스터링 (비지도 학습) : EM 및 k- 평균 알고리즘을 연구했습니다. 나는 다음을 계속 읽습니다. k- 평균은 군집이 구형이라는 가정하에 EM의 변형입니다. 누군가 위의 문장을 설명 할 수 있습니까? 나는 구상 의미가 무엇인지, kmeans와 EM이 어떻게 관련되는지 이해하지 못합니다. 하나는 확률 론적 할당을 수행하고 다른 하나는 결정 론적 방식으로 수행하기 …


3
곡선 모양을 기반으로 시계열 군집을 수행 할 수 있습니까?
일련의 아울렛에 대한 판매 데이터가 있고 시간에 따른 곡선 모양을 기준으로 분류하고 싶습니다. 데이터는 대략 다음과 같습니다 (그러나 무작위는 아니며 일부 누락 된 데이터가 있음). n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval …

3
로그 변환 예측 변수 및 / 또는 응답의 해석
종속 변수, 종속 변수 및 독립 변수 또는 독립 변수 만 로그 변환인지 해석에 차이가 있는지 궁금합니다. 의 경우를 고려 log(DV) = Intercept + B1*IV + Error IV를 백분율 증가로 해석 할 수 있지만 log(DV) = Intercept + B1*log(IV) + Error 또는 내가있을 때 DV = Intercept + B1*log(IV) + …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
클러스터링하기 전에 데이터를 확장해야합니까?
이 튜토리얼을 찾았습니다. 클러스터링 전에 기능에서 스케일 기능을 실행해야한다고 제안합니다 (데이터가 z 점수로 변환된다고 생각합니다). 그것이 필요한지 궁금합니다. 데이터를 스케일링하지 않으면 멋진 팔꿈치 포인트가 있기 때문에 주로 묻습니다. 그러나 스케일링하면 사라집니다. :)


8
가중 소셜 네트워크 / 그래프에서 커뮤니티 감지를 수행하는 방법은 무엇입니까?
가중치가 있고 방향이없는 가장자리 가있는 그래프에서 커뮤니티 감지 / 그래프 분할 / 클러스터링을 수행 할 때 누군가가 좋은 출발점을 제안 할 수 있는지 궁금합니다 . 문제의 그래프는 약 3 백만 개의 모서리를 가지며 각 모서리는 연결하는 두 정점 사이의 유사도를 나타냅니다. 특히,이 데이터 세트에서 모서리는 개인이며 정점은 관찰 된 동작의 …

5
동적 시간 왜곡 클러스터링
DTW (Dynamic Time Warping)를 사용하여 시계열의 클러스터링을 수행하는 방법은 무엇입니까? 두 시계열의 유사성을 찾는 방법으로 DTW에 대해 읽었지만 시간이 바뀔 수 있습니다. 이 방법을 k- 평균과 같은 클러스터링 알고리즘의 유사성 측정으로 사용할 수 있습니까?

5
R의 시계열 '클러스터링'
시계열 데이터 세트가 있습니다. 각 시계열의 실제 날짜가 모두 정확하게 '정렬'되는 것은 아니지만 각 시리즈는 동일한 기간을 포함합니다. 즉, 시계열을 2D 행렬로 읽으면 다음과 같이 보일 것입니다. date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A …

3
클러스터링 방법을 선택하는 방법은 무엇입니까? 방법 선택을 보장하기 위해 클러스터 솔루션의 유효성을 검사하는 방법은 무엇입니까?
군집 분석의 가장 큰 문제 중 하나는 사용 된 다른 군집 방법 (계층 군집의 다른 연결 방법 포함)을 기반으로 다른 결론을 도출해야 할 수도 있다는 것 입니다. 이 방법 에 대한 귀하의 의견을 알고 싶습니다- 어떤 방법을 선택하고 어떻게 해야합니까 ? "클러스터링의 가장 좋은 방법은 정답을 제공하는 것입니다."라고 말할 수 …

4
실루엣 플롯의 평균을 해석하는 방법?
실루엣 플롯을 사용하여 데이터 세트의 클러스터 수를 결정하려고했습니다. 데이터 세트 Train을 감안할 때 다음 matlab 코드를 사용했습니다. Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` 결과 플롯은 x 축 이 군집 수로 , …


3
t-SNE가 군집화 또는 분류를위한 차원 축소 기술로 사용되지 않는 이유는 무엇입니까?
최근 과제에서 MNIST 숫자에 PCA를 사용하여 크기를 64 (8 x 8 이미지)에서 2로 줄이라는 지시를 받았습니다. 그런 다음 가우스 혼합 모델을 사용하여 숫자를 클러스터링해야했습니다. 2 개의 주요 구성 요소 만 사용하는 PCA는 별개의 군집을 생성하지 않으므로 모델이 유용한 그룹화를 생성 할 수 없습니다. 그러나 2 개의 구성 요소와 함께 t-SNE를 …

3
로지스틱 회귀 95 % 신뢰 구간을 수동으로 계산하는 것과 R에서 confint () 함수를 사용하는 것 사이에 차이가있는 이유는 무엇입니까?
사랑하는 여러분, 제가 설명 할 수없는 이상한 것을 발견했습니다. 요약 : 로지스틱 회귀 모델에서 신뢰 구간을 계산하는 수동 방법과 R 함수 confint()는 다른 결과를 제공합니다. Hosmer & Lemeshow의 Applied Logistic Regression (2 판)을 진행했습니다. 세 번째 장에는 승산 비와 95 % 신뢰 구간을 계산하는 예가 있습니다. R을 사용하면 모델을 쉽게 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
(왜) 코오 넨 스타일의 SOM이 유리하지 않았습니까?
내가 알 수있는 한, Kohonen 스타일의 SOM은 2005 년경에 피크를 기록했으며 최근에는 호의를 얻지 못했습니다. 나는 SOM이 다른 방법에 의해 포섭되었거나 다른 방법과 동등한 것으로 입증되었다는 논문을 찾지 못했습니다 (어쨌든 더 높은 차원에서). 그러나 tSNE 및 기타 방법은 오늘날 Wikipedia 또는 SciKit Learn에서 요즘 훨씬 더 많은 잉크를 얻는 것처럼 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.