«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

5
K- 평균의 단점을 이해하는 방법
K- 평균은 군집 분석에서 널리 사용되는 방법입니다. 내 이해에 따르면,이 방법은 모든 가정을 필요로하지 않습니다. 즉, 데이터 세트와 미리 지정된 수의 클러스터 k를 주면됩니다. 클러스터 제곱 내에서 제곱 오차 (SSE)의 합계를 최소화하는이 알고리즘을 적용하면됩니다. 오류. k- 평균은 본질적으로 최적화 문제입니다. k- 평균의 단점에 대한 자료를 읽었습니다. 그들 대부분은 다음과 같이 …

8
유클리드 거리가 높은 차원에서 좋은 지표가 아닌 이유는 무엇입니까?
나는 '유클리드 거리는 높은 차원에서 좋은 거리가 아닙니다'라고 읽었습니다. 이 진술은 차원의 저주와 관련이 있다고 생각하지만 정확히 무엇입니까? 게다가 '높은 차원'이란 무엇입니까? 100 가지 기능을 갖춘 유클리드 거리를 사용하여 계층 적 클러스터링을 적용했습니다. 이 측정 항목을 사용하는 것이 '안전'한 기능은 몇 개입니까?

8
얼굴 이미지 데이터베이스에서 주어진 얼굴 감지
프로필 사진을 통해 트위터 사용자의 얼굴을 포함하는 작은 프로젝트를 진행하고 있습니다. 내가 직면 한 문제는 명확한 인물 사진 인 이미지를 제외한 모든 이미지를 필터링 한 후에 트위터 사용자의 작지만 상당 비율이 Justin Bieber의 사진을 프로필 사진으로 사용한다는 것입니다. 그것들을 걸러 내기 위해 그림이 저스틴 비버 (Justin Bieber)의 그림인지 프로그래밍 방식으로 …

6
클러스터링 알고리즘이 의미있는 결과를 얻을 수있을 정도로 데이터가 "클러스터"되어 있는지 확인하는 방법은 무엇입니까?
kman 또는 다른 클러스터링 알고리즘의 결과가 실제로 의미가 있도록 (고차원) 데이터에 충분한 클러스터링이 있는지 어떻게 알 수 있습니까? 특히 k- 평균 알고리즘의 경우 실제 군집 결과가 의미가 있고 (가상하지 않은) 클러스터 내 분산의 감소가 얼마나됩니까? 차원 적으로 축소 된 형태의 데이터가 그려 질 때 군집이 분명해야하고 군집을 시각화 할 수없는 …

6
t-SNE 출력에 대한 클러스터링
클러스터 내에서 하위 그룹 효과를 찾기 전에 시끄러운 데이터 세트를 클러스터링하는 것이 편리한 응용 프로그램이 있습니다. 먼저 PCA를 살펴 봤지만 변동성의 90 %에 도달하기 위해서는 ~ 30 개의 구성 요소가 필요하므로 단지 몇 대의 PC에서 클러스터링하면 많은 정보가 버려집니다. 그런 다음 t-SNE (처음으로)를 시도했는데, 이는 k- 평균을 통한 군집화에 매우 …

3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
클러스터링 방법 선택
유사한 사례를 그룹화하기 위해 데이터 세트에서 군집 분석을 사용하는 경우 다수의 군집 방법과 거리 측정 중에서 선택해야합니다. 때로는 하나의 선택이 다른 선택에 영향을 줄 수 있지만 여러 가지 가능한 방법 조합이 있습니다. 누구나 다양한 클러스터링 알고리즘 / 방법 및 거리 측정 방법 중에서 선택하는 방법에 대한 권장 사항이 있습니까? 변수의 …


6
k- 평균 군집 알고리즘이 유클리드 거리 측정법 만 사용하는 이유는 무엇입니까?
k- 평균 알고리즘이 거리 메트릭으로 코사인 (비 유사) 유사성을 사용하지 않고 유클리드 표준 만 사용할 수있는 효율성 또는 기능성 측면에서 특정 목적이 있습니까? 일반적으로 유클리드 이외의 다른 거리를 고려하거나 사용하는 경우 K- 평균 방법이 준수되고 정확합니까? [@ttnphns 추가. 문제는 두 가지입니다. "(비) 유클리드 거리"는 두 데이터 포인트 사이의 거리 또는 …

6
덴드로 그램은 어디에서자를까요?
계층 적 군집화는 덴드로 그램으로 나타낼 수 있습니다. 덴드로 그램을 특정 수준으로 자르면 일련의 클러스터가 생깁니다. 다른 레벨에서 절단하면 다른 클러스터 세트가 제공됩니다. 덴드로 그램을자를 곳을 어떻게 선택 하시겠습니까? 최적의 포인트로 생각할 수있는 것이 있습니까? 덴드로 그램이 시간이 지남에 따라 변할 때 같은 지점에서 잘라야합니까?

5
k- 평균 군집화와 PCA의 관계는 무엇입니까?
클러스터링 알고리즘 (예 : k- 평균) 전에 PCA (주성분 분석)를 적용하는 것이 일반적입니다. 실제로 클러스터링 결과를 향상시키는 것으로 여겨집니다 (소음 감소). 그러나 저는 PCA와 k- 평균의 관계에 대한 비교적이고 심층적 인 연구에 관심이 있습니다. 예를 들어 Chris Ding과 Xiaofeng He (2004 )는 Principal Component Analysis를 통한 K-means Clustering 은 "주요 …

10
올바른 클러스터 수를 결정하는 방법은 무엇입니까?
우리는 클러스터 센터를 찾고 k-means 클러스터링 에서 k 개의 다른 클러스터 빈에 포인트를 할당합니다.이 클러스터 는 매우 잘 알려진 알고리즘이며 거의 모든 기계 학습 패키지에서 찾을 수 있습니다. 그러나 내 생각에 빠지고 가장 중요한 부분은 올바른 k를 선택하는 것입니다. 가장 좋은 가치는 무엇입니까? 그리고, 무엇을 의미 최선 ? 나는 여기 …

10
거리 매트릭스를 사용한 클러스터링
M각 노드 쌍 사이의 거리를 나타내는 (대칭) 행렬 이 있습니다. 예를 들어 ABCDEFGHIJKL 0 20 20 20 40 60 60 60100120120120 B 20 20 20 60 80 80 80120140140140 C 20 20 20 60 80 80 80120140140140 D 20 20 20 60 80 80 80120140140140 E 40 60 60 60 …
52 clustering 

2
인공 신경망 ANN을 어떻게 감독되지 않은 클러스터링에 사용할 수 있습니까?
나는 artificial neural network (ANN)예측에서 오류를 줄임으로써 피팅을 개선하기 위해 역 전파를 사용하여 감독 방식으로 훈련 될 수있는 방법을 이해합니다 . 나는 ANN이 비지도 학습에 사용될 수 있다고 들었지만 최적화 단계를 안내하기 위해 일종의 비용 함수없이 어떻게 할 수 있습니까? k- 평균 또는 EM 알고리즘에는 각 반복이 증가하도록 검색하는 기능이 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.