«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

2
노이즈가 많은 데이터 또는 이상 값으로 클러스터링
이 같은 두 변수의 노이즈 데이터가 있습니다. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y …

1
Scikit Learn의 군집 관성 수식
팬더와 scikit learn을 사용하여 파이썬으로 kmeans 클러스터링을 코딩하고 싶습니다. 좋은 k를 선택하기 위해 Tibshirani와 al 2001 ( pdf ) 의 Gap Statistic을 코딩하고 싶습니다 . scikit의 inertia_ 결과 를 사용 하고 모든 거리 계산을 다시 코딩하지 않고도 갭 통계 공식을 조정할 수 있는지 알고 싶습니다 . scikit에 사용 된 관성 …

3
k- 평균에 대한 군집 선택 : 1 군집 사례
kmeans를 사용한 클러스터링이 적절한 지 판단하는 좋은 방법을 아는 사람이 있습니까? 즉, 샘플이 실제로 균질 한 경우 어떻게해야합니까? 혼합 모델 (R의 mclust를 통해)이 1 : k 클러스터 사례에 적합한 통계를 제공한다는 것을 알고 있지만, kmeans를 평가하는 모든 기술은 최소 2 개의 클러스터가 필요한 것처럼 보입니다. 누구든지 kmeans에 대한 1 및 …
9 r  clustering  k-means 

5
사전 클러스터링이 더 나은 예측 모델을 구축하는 데 도움이됩니까?
이탈 모델링 작업을 위해 다음을 고려했습니다. 데이터에 대한 k 개의 클러스터 계산 각 클러스터에 대해 k 개의 모델을 개별적으로 빌드하십시오. 그 이유는, 서브 스크 라이버의 집단이 동 질적이라는 것을 증명할 것이 없다는 것의 근거이다. 내 질문은 적절한 방법입니까? 위반 사항이 있거나 어떤 이유로 나쁜 것으로 간주됩니까? 그렇다면 왜 그렇습니까? 그렇지 …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

7
클러스터링 알고리즘의 속성을 보여주기 위해 2D 인공 데이터를 찾고
다른 분포와 형태에 따라 2 차원 데이터 포인트 (각 데이터 포인트는 두 개의 값 (x, y)로 구성된 벡터)의 데이터 세트를 찾고 있습니다. 그러한 데이터를 생성하는 코드도 도움이 될 것입니다. 그것들을 사용하여 일부 클러스터링 알고리즘의 성능을 플롯 / 시각화하고 싶습니다. 여기 몇 가지 예가 있어요. 클라우드 데이터와 같은 별 4 개의 …

4
1D 데이터가 1 ​​개 또는 3 개의 값으로 묶여 있는지 여부를 정량적으로 알려주는 방법은 무엇입니까?
인간의 심장 박동 사이의 시간에 대한 데이터가 있습니다. 이소성 (추가) 박동의 한 가지 징후는 이러한 간격이 하나가 아닌 세 개의 값으로 묶여 있다는 것입니다. 이를 정량적으로 측정하려면 어떻게해야합니까? 여러 데이터 세트를 비교하려고 하는데이 두 개의 100 빈 히스토그램이 모두 대표적입니다. 분산을 비교할 수는 있지만 알고리즘이 다른 경우와 비교하지 않고 각 …


2
계층 적 군집이 유효하기 위해서는 거리가 "메트릭"이어야합니까?
N 개의 항목 사이 의 거리 ( 메트릭 이 아님)를 정의한다고 가정하겠습니다 . 이 거리를 바탕으로 우리는 집단 계층 적 군집 을 사용 합니다 . 의미있는 결과를 얻기 위해 알려진 각 알고리즘 (단일 / 최대 / 평균 연결 등)을 사용할 수 있습니까? 다르게 말하면, 거리가 미터가 아닌 경우이를 사용하는 데 …

4
비대칭 거리 측정으로 클러스터링
비대칭 거리 측정으로 피쳐를 어떻게 클러스터링합니까? 예를 들어 요일이있는 데이터 집합을 기능으로 클러스터링한다고 가정합니다. 월요일부터 금요일까지의 거리는 금요일부터 월요일까지의 거리와 다릅니다. 이것을 클러스터링 알고리즘의 거리 측정에 어떻게 통합합니까?

2
R에서 노이즈 (DBSCAN) 클러스터링을 사용하는 애플리케이션의 밀도 기반 공간 클러스터링
이 질문은 " R에서 공간 데이터 클러스터링 "으로 시작 하여 이제 DBSCAN 질문으로 이동했습니다. 첫 번째 질문에 대한 답변이 제안한대로 DBSCAN에 대한 정보를 검색하고 관련 문서를 읽었습니다. 새로운 질문이 생겼습니다. DBSCAN에는 몇 가지 매개 변수가 필요하며 그 중 하나는 "거리"입니다. 내 데이터가 3 차원, 경도, 위도 및 온도이므로 어떤 "거리"를 …
9 r  clustering  spatial 

3
k- 평균 알고리즘의 사이클링
위키 에 따르면 가장 널리 사용되는 수렴 기준은 "보조가 변경되지 않았습니다"입니다. 이러한 수렴 기준을 사용하면 사이클링이 가능한지 궁금합니다. 누군가가 사이클링의 예를 제공하거나 이것이 불가능하다는 것을 입증하는 기사에 대한 참조를 지적하면 기뻐합니다.

3
공간 효율적인 클러스터링
내가 본 대부분의 클러스터링 알고리즘은 모든 지점 사이에 거리를 좁히는 것으로 시작하여 더 큰 데이터 세트에서 문제가됩니다. 하지 않는 것이 있습니까? 아니면 일종의 부분적 / 대략적 / 스 태거 방식입니까? 어떤 클러스터링 알고리즘 / 구현이 O (n ^ 2)보다 적은 공간을 차지합니까? 알고리즘 목록과 시간 및 공간 요구 사항이 있습니까?

4
2 X 3 테이블에서 다중 사후 카이-제곱 테스트를 수행하는 방법은 무엇입니까?
내 데이터 세트는 해안, 미드 채널 및 해양의 세 가지 사이트 유형에서 유기체의 총 사망률 또는 생존율로 구성됩니다. 아래 표의 숫자는 사이트 수를 나타냅니다. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100 % 사망률이 발생한 사이트 수가 사이트 유형에 따라 중요한지 알고 싶습니다. 2 …

2
바이러스 터링 시작하기
나는 biclusters에 대한 약간의 인터넷 연구를 해왔다. (위키 기사를 여러 번 읽었습니다.) 지금까지 정의 나 표준 용어가 거의없는 것 같습니다. Biclusters를 찾는 알고리즘에 관심이있는 사람이 읽어야 할 표준 논문이나 서적이 있는지 궁금합니다. 해당 분야의 최신 기술 상태를 말할 수 있습니까? 나는 유전자 알고리즘을 사용하여 biclusters를 찾는다는 개념에 흥미가 있었기 때문에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.