«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

2
"유사한"소스 코드의 클러스터 감지
컴퓨터 과학 프로젝트를 수행해야하는 400 명의 학생 (큰 대학교에 있음)이 있고 학생들이 혼자 일해야한다고 가정합니다 (학생 그룹 없음). 프로젝트의 예는 "fortran에서 빠른 푸리에 변환 알고리즘을 구현하는 것"이라고 할 수 있습니다 (나는 섹시하지는 않지만 내 질문을 더 간단하게 만듭니다). 저는 정답이며, "정말 독립적으로 작성하기에는 너무 유사한"구현을 제안한 학생 그룹이 있는지 확인하기 …

3
클러스터링 배포
여러 분포가 있습니다 (아래 그림에서 10 개의 분포). 실제로 이것은 히스토그램입니다. x 축에는 용액 내 일부 입자의 크기 인 70 개의 값이 있으며 x의 각 값에 대해 y의 해당 값은 크기가 x 값 근처 인 입자의 비율입니다. 이 배포판을 클러스터하고 싶습니다. 현재 유클리드 거리와 같은 계층 적 클러스터링을 사용하고 있습니다. …
10 clustering 

3
종 방향 변수를 묶는 방법?
0 일부터 7 일까지의 종단 데이터를 포함하는 많은 변수가 있습니다. 이러한 종단 변수 (사례가 아닌)를 다른 그룹으로 묶을 수있는 적절한 군집 접근법을 찾고 있습니다. 이 데이터 세트를 시간별로 개별적으로 분석하려고 시도했지만 그 결과를 합리적으로 설명하기가 매우 어려웠습니다. 웹 사이트에 예제PROC SIMILARITY 가 있기 때문에 SAS 절차의 가용성을 조사했습니다 . 그러나 …
10 clustering 

2
포인트 클라우드 데이터에서 원형 패턴 감지
내가 작업하고있는 일부 볼륨 재구성 알고리즘의 경우 (LIDAR 장치에서 오는) 3d 포인트 데이터에서 임의의 수의 원형 패턴을 감지해야합니다. 패턴은 공간에서 임의로 배향 될 수 있으며 얇은 2D 평면에 (완벽하지는 않지만) 놓여 있다고 가정합니다. 다음은 동일한 평면에 두 개의 원이있는 예입니다 (이것은 3d 공간임을 기억하십시오). 나는 많은 접근법을 시도했다. 가장 간단한 …

1
kmeans 클러스터링을 위해 R의 통계 패키지 사용
클러스터 패키지의 하나 또는 두 가지 측면을 이해하는 데 어려움이 있습니다. Quick-R 의 예제를 자세히 따르고 있지만 분석의 한두 가지 측면을 이해하지 못합니다. 이 특정 예제에 사용중인 코드를 포함 시켰습니다. ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, 0, 0, 0, …
10 r  clustering 

1
군집 분석 후 판별 분석
k-means와 같은 군집 알고리즘의 결과에 대해 판별 분석 (DA)을 사용하는 근거는 무엇입니까 (필수적으로 정신 장애의 임상 적 서브 타이핑). 클래스 간 (클래스 내) 관성의 최대화 (각각 최소화)를 지원하므로 클러스터 생성 중에 사용 된 변수에 대한 그룹 차이를 테스트하는 것은 일반적으로 권장되지 않습니다. 따라서 개인을 더 낮은 차원의 계승 공간에 포함시키고 …

1
K- 평균 : 실제 상황에서 얼마나 많은 반복이 있습니까?
데이터 마이닝 또는 빅 데이터에 대한 업계 경험이 없으므로 경험을 공유하는 것을 듣고 싶습니다. 사람들이 실제로 큰 데이터 세트에서 k- 평균, PAM, CLARA 등을 실행합니까? 아니면 무작위로 샘플을 추출합니까? 데이터 집합의 샘플 만 가져 오는 경우 데이터 집합이 정규 분포를 따르지 않으면 결과가 신뢰할 수 있습니까? 이러한 알고리즘을 실행할 때 …

2
조정 랜드 지수 대 조정 상호 정보
클러스터링 성능을 평가하려고합니다. 메트릭스 에 대한 skiscit-learn 문서를 읽고있었습니다 . ARI와 AMI의 차이점을 이해하지 못합니다. 그들은 두 가지 다른 방식으로 동일한 일을하는 것 같습니다. 문서에서 인용 : 기본 진리 클래스 할당 labels_true 및 동일한 샘플 labels_pred에 대한 클러스터링 알고리즘 할당에 대한 지식을 감안할 때 조정 된 랜드 인덱스 는 순열을 …

2
작은 샘플 집합의 부울 기능에 대한 PCA와 스펙트럼 클러스터링의 차이점
50 샘플의 데이터 세트가 있습니다. 각 샘플은 11 개의 상관 관계가있는 부울 피처로 구성됩니다. 2D 플롯에서 이러한 샘플을 시각화하고 50 개의 샘플 중 클러스터 / 그룹이 있는지 조사하고 싶습니다. 나는 다음 두 가지 접근법을 시도했다. (a) 50x11 매트릭스에서 PCA를 실행하고 처음 두 주요 구성 요소를 선택하십시오. 데이터를 2D 플롯에 투영하고 …

1
R 선형 회귀 범주 형 변수 "숨김"값
이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
상호 배타적이지 않은 카테고리를 분류 할 수있는 딥 러닝 모델
예 : 직업 설명에 "영국의 Java Senior Engineer"문장이 있습니다. 나는 2 개 종류로 예측하는 깊은 학습 모델을 사용하려면 : English 와 IT jobs. 기존 분류 모델을 사용하는 경우 softmax마지막 레이어에서 함수가있는 레이블 하나만 예측할 수 있습니다 . 따라서 두 모델 신경망을 사용하여 두 범주 모두에서 "예"/ "아니오"를 예측할 수 있지만 …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
가우시안 베이지안 혼합물에 확률 적 변동 추론 적용
이 백서에 따라 확률 변동 추정과 함께 가우시안 혼합 모델을 구현하려고합니다 . 이것은 가우스 혼합의 pgm입니다. 논문에 따르면, 확률 변동 추정의 전체 알고리즘은 다음과 같습니다. 그리고 나는 여전히 GMM으로 확장하는 방법이 매우 혼란 스럽습니다. 첫째, 로컬 변형 매개 변수는 이고 다른 매개 변수는 모두 전역 매개 변수 라고 생각했습니다 . …

2
클러스터링 문제에 대한 기능 선택
비지도 알고리즘 (클러스터링)을 사용하여 서로 다른 데이터 세트를 그룹화하려고합니다. 문제는 많은 기능 (~ 500)과 소량의 사례 (200-300)가 있다는 것입니다. 지금까지 나는 항상 데이터를 훈련 세트로 분류 한 분류 문제 만 사용했습니다. 거기에서 기능의 사전 선택을 위해 몇 가지 기준 (예 : random.forest.importance 또는 information.gain)을 사용한 다음 관련 학습자를 찾기 위해 …

2
불일치 조치를위한 가중치를 찾는 방법
클러스터링에 사용할 수있는 비 유사성 측정에 대한 속성 가중치를 배우고 싶습니다. 나는 몇 가지 예제가 (동일한 클러스터에 있어야합니다) "와 유사한"뿐만 아니라 몇 가지 예로 들어있는 객체의 쌍 "유사하지"있는 객체의 쌍은 (안을 동일한 클러스터에 있어야 함). 각 객체에는 여러 가지 속성이 있습니다. 원하는 경우 각 객체를 차원 벡터의 피처 로 생각할 …

2
이“United States of Reddit”그래프는 어떻게 생성됩니까?
아래는 p의 그래프입니다. James Dowdell에 의해 만들어졌지만 Christian Rudder 's Dataclysm 의 202 . 여기 에는 사용자가 링크, 의견 및 투표를 제출할 수있는 reddit.com 의 관심 영역 인 다양한 상위 200 개의 하위 재 지정 간의 관계가 설명되어 있습니다. 이들은이 사이트의 태그와 유사합니다. 하위 레딧 영역의 크기는 인기를 나타냅니다. 하위 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.