«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

1
맥 러스트 모델 선택
R 패키지 mclust는 BIC를 클러스터 모델 선택의 기준으로 사용합니다. 내 이해에서 BIC가 가장 낮은 모델을 다른 모델보다 선택해야합니다 (BIC에만 관심이있는 경우). 그러나 BIC 값이 모두 음수 인 경우 Mclust함수는 기본적으로 BIC 값이 가장 높은 모델로 설정됩니다. 다양한 시험에서 얻은 전반적인 이해는 mclust"최고의"모델을 모델로 식별 한다는 것 입니다.max{BICi}max{BICi}max\{BIC_i\} 저자가 왜이 결정을했는지 …

3
Newman의 네트워크 모듈성은 부호있는 가중치 그래프에서 작동합니까?
그래프의 모듈성은 Wikipedia 페이지 에서 정의됩니다 . A의 다른 포스트 누군가는 인접성 매트릭스 때문 모듈화 쉽게 가중 네트워크를 계산 (최대화 할 수있다)를 설명 뿐만 값의 관계를 포함 할 수있다. 그러나 이것이 예를 들어 -10에서 +10 사이의 서명 된 가치있는 가장자리에서도 작동하는지 알고 싶습니다. 이 문제에 대한 직관, 증거 또는 참조를 …

1
기대 극대화 설명
EM 알고리즘 에 관한 매우 유용한 튜토리얼을 찾았습니다 . 튜토리얼의 예제와 그림은 단순히 훌륭합니다. 확률 계산에 대한 관련 질문 기대 최대화가 어떻게 작동합니까? 튜토리얼에 설명 된 이론을 예제에 연결하는 방법에 관한 또 다른 질문이 있습니다. 전자 단계에서, EM 함수를 선택 그 하한은 로그 P ( X , Θ ) 도처하고있는 …

1
군집 검증에 대한 정보 변형 (VI) 지표의 직관은 무엇입니까?
나와 같은 비 통계학 자의 VI경우 Marina Melia " 클러스터링 비교-정보 기반 거리 "(2007 년 저널)에 의해 관련 논문을 읽은 후에도 메트릭 (정보 변형) 아이디어를 포착하기가 매우 어렵습니다 . 사실, 많은 클러스터링 용어에 익숙하지 않습니다. 아래는 MWE이며 사용되는 다른 메트릭에서 출력이 무엇을 의미하는지 알고 싶습니다. R에 동일한 순서로 두 개의 …

2
공분산 행렬을 만드는 변수 사이의 거리는 얼마입니까?
I는이 공분산 행렬와으로 분할 할 변수 사용하여 클러스터 계층 클러스터링 (공분산 행렬을 정렬하도록).n×nn×nn \times nkkk 변수 간 ​​(즉, 제곱 공분산 행렬의 열 / 행 사이) 일반적인 거리 함수가 있습니까? 또는 더 많은 것이 있으면 주제에 대한 좋은 참고 자료가 있습니까?

2
종단 데이터 중에서 그룹화 (궤도)를 찾는 방법은 무엇입니까?
문맥 질문을 다소 확장하기 전에 장면을 설정하고 싶습니다. 나는 약 3 개월마다 피험자에 대해 측정 한 세로 데이터를 가지고 있으며, 1 차 결과는 5에서 14 사이의 숫자 (연속 1dp에서와 같이)는 7에서 10 사이의 벌크 (모든 데이터 포인트 중)입니다. 스파게티 플롯 (x 축의 나이와 각 사람의 선이있는)은 1500 개가 넘는 과목이있을 …

4
k- 평균에서 최적의 k가없는 경우가 있습니까?
이것은 적어도 몇 시간 동안 내 마음 속에있었습니다. k- 평균 알고리즘 ( 코사인 유사성 메트릭 사용 ) 의 출력에 대한 최적의 k를 찾으려고 노력 했기 때문에 클러스터 수의 함수로 왜곡을 플로팅했습니다. 내 데이터 세트는 600 차원 공간에 800 개의 문서를 모은 것입니다. 내가 이해 한 바에 따르면,이 곡선에서 무릎 점 …

5
공칭 / 원형 변수에 대한 SOM 클러스터링
공칭 입력 클러스터링에 익숙한 사람이 있는지 궁금합니다. 나는 SOM을 솔루션으로보고 있지만 분명히 숫자 기능에서만 작동합니다. 범주 형 기능에 대한 확장이 있습니까? 특히 가능한 기능으로 'Days of the Week'에 대해 궁금했습니다. 물론 수치 적 특징으로 변환하는 것이 가능합니다 (즉, 1-7에 해당하는 Mon-Sun) 그러나 Sun과 Mon (1 & 7) 사이의 유클리드 거리는 …

2
2D로 다차원 데이터 (LSI) 시각화
나는 문서 간의 유사성을 찾기 위해 잠재 의미 색인을 사용하고 있습니다 ( 감사, JMS를! ) 차원 축소 후에 문서를 클러스터로 그룹화하기 위해 k- 평균 군집화를 시도했지만 매우 효과적입니다. 그러나 조금 더 나아가서 두 노드 사이의 거리가 유사성에 반비례하는 노드 세트로 문서를 시각화하고 싶습니다 (매우 유사한 노드는 서로 가깝습니다). 내 데이터가 …

3
K- 평균 군집화를 초기화하는 방법
K- 평균의 초기 종자 (클러스터 센터)를 선택하는 현재의 최신 기술에 관심이 있습니다. 인터넷 검색은 두 가지 인기있는 선택으로 이어집니다. 초기 종자의 무작위 선택 및 KMeans ++ 선택 기법 사용 : Arthur & Vassilvitskii 2006 k-means ++ :주의 깊은 시딩의 장점 여기에 아무도 모르는 다른 유망한 방법이 있습니까?

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
거대한 이진 데이터 집합을 몇 가지 범주로 클러스터링하려면 어떤 알고리즘을 사용해야합니까?
바이너리 데이터 (0-1 항목 만)의 큰 (650K 행 * 62 열) 행렬이 있습니다. 매트릭스는 대부분 희박합니다. 약 8 %가 채워집니다. 1에서 5로 명명 된 5 개의 그룹으로 클러스터링하고 싶습니다. 계층 적 클러스터링을 시도했지만 크기를 처리 할 수 ​​없었습니다. 또한 길이 62의 650K 비트 벡터를 고려하여 해밍 거리 기반 k- 평균 …

3
군집 솔루션을 평가하기위한 두 가우스 혼합 간의 거리
다른 클러스터링 방법을 비교하기 위해 빠른 시뮬레이션을 실행 중이며 현재 클러스터 솔루션을 평가하려고 시도 중입니다. 다양한 유효성 검사 메트릭 ( R의 cluster.stats () 에서 발견 됨)에 대해 알고 있지만 예상 클러스터 수가 실제 클러스터 수와 같으면 가장 잘 사용된다고 가정합니다. 원래 시뮬레이션에서 올바른 수의 클러스터를 지정하지 않은 경우 클러스터링 솔루션의 …

2
정렬 된 데이터 모음을 '지능적으로'비닝하는 방법은 무엇입니까?
지능적으로 정렬 된 컬렉션을 비우려고합니다. 개의 데이터 모음 이 있습니다. 하지만 난에이 데이터 맞는 것을 알고 불평등 쓰레기통 크기. 데이터에 적합하게 엔드 포인트를 지능적으로 선택하는 방법을 모르겠습니다. 예를 들면 다음과 같습니다.m엔nn미디엄mm 내 컬렉션에 12 개의 항목이 있고 데이터가 3 개의 저장소에 적합하다는 것을 알고 있습니다. Index: 1 2 3 4 …

5
로지스틱 회귀 분석을 위해 데이터를 분할하는 수단으로 클러스터링
로지스틱 회귀 모델의 일부 기능을 기반으로 학생의 성공 또는 실패를 예측하려고합니다. 모델의 성능을 향상시키기 위해 나는 명백한 차이를 기반으로 학생들을 여러 그룹으로 나누고 각 그룹에 대해 별도의 모델을 만드는 것에 대해 이미 생각했습니다. 그러나 시험을 통해 이러한 그룹을 식별하는 것이 어려울 수 있으므로 학생들을 기능별로 묶어서 분할하는 것을 생각했습니다. 이러한 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.