«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

2
복수 질문 시험에서 부정 행위의 패턴 감지
의문: 시험 문제에 대한 이진 데이터가 있습니다 (정확한 / 잘못된). 일부 개인은 사전에 일부 질문과 정답에 액세스했을 수 있습니다. 나는 누가, 얼마나, 또는 어느 것을 모른다. 어떤 부정이 없다면, I는 항목에 대한 정답 확률을 모델링하는 것이 생각 대로 L O g I t는 ( ( p는 난 = 1 | …

5
각 클러스터의 포인트 수가 동일한 클러스터링 절차?
점이 있습니다. . . , x n }X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\} 에서 하고 포인트를 클러스터링하여 다음과 같이합니다.RpRpR^p 각 군집에는 동일한 수의 요소가 포함 됩니다. (클러스터 수가 나눈다 고 가정합니다 .)XXXnnn 각 군집은 평균 의 군집과 같은 의미에서 "공간적으로 응집력이 있습니다" .kkk 이 중 하나를 만족시키는 많은 클러스터링 절차를 생각하기는 쉽지만 누구나 한 번에 …

3
데이터베이스에서 1D 데이터의 다른 클러스터 결정
다른 노드 간 데이터 전송 데이터베이스 테이블이 있습니다. 이것은 거의 4 천만 건의 전송이 가능한 거대한 데이터베이스입니다. 속성 중 하나는 0 바이트에서 2 테라 바이트 사이의 바이트 수 (nbytes) 전송입니다. 주어진 k 클러스터에 일부 x1 전송이 k1 클러스터에 속하고 x2 변환기가 k2 등에 속하도록 nbyte를 클러스터링하고 싶습니다. 내가 사용한 용어에서 …

3
t-SNE를 통해 시각화를위한 차원 축소가 "닫힌"문제로 간주되어야합니까?
차원 축소를위한 sne티티t 알고리즘에 대해 많이 읽었습니다 . MNIST와 같은 "클래식"데이터 세트의 성능에 깊은 인상을 받았습니다. MNIST는 숫자를 명확하게 구분합니다 ( 원본 기사 참조 ). 또한 훈련하는 신경망에서 배운 기능을 시각화하는 데 사용했으며 결과에 매우 만족했습니다. 그래서 내가 이해하는 것처럼 : -sne은 대부분의 데이터 세트에서 좋은 결과를 얻었 으며 Barnes-Hut …

2
이들 간의 상관 관계에 따른 클러스터링 변수
질문 : 큰 상관 관계 행렬이 있습니다. 개별 상관 관계를 클러스터링하는 대신 서로 상관 관계에 따라 변수를 클러스터링하려고합니다. 즉, 변수 A와 변수 B가 변수 C와 Z의 상관 관계가 비슷한 경우 A와 B는 동일한 클러스터의 일부 여야합니다. 이에 대한 좋은 실제 사례는 다른 자산 클래스입니다. 자산 내 클래스 상관 관계는 자산 …

1
거리 메트릭으로 상관 관계 사용 (계층 적 클러스터링의 경우)
데이터를 계층 적으로 클러스터하고 싶지만 유클리드 거리를 사용하는 대신 상관 관계를 사용하고 싶습니다. 또한 상관 계수의 범위는 -1에서 1까지이며, 연구에서 -1과 1이 모두 "공-조절"을 나타내므로 -1과 1을 d = 0으로 취급합니다. 따라서 계산은 d=1−|r| d=1−|r|\ d = 1-|r| 나는 코사인 정리를 사용하여 r 을 진정한 유클리드 d 로 변환해야한다는 별도의 …

3
감독 클러스터링 또는 분류?
두 번째 질문은 웹에서 어딘가에서 "감독 클러스터링"에 대해 이야기하고 있다는 것을 알았습니다. 클러스터링은 감독되지 않았으므로 "감독 클러스터링"의 의미는 무엇입니까? "분류"와 관련하여 차이점은 무엇입니까? 그것에 대해 이야기하는 많은 링크가 있습니다. http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf 등 ...

2
이진 행렬 클러스터링
250k x 100 차원 의 이진 피처 로 반 소형 행렬이 있습니다 . 각 행은 사용자이며 열은 일부 사용자 동작의 이진 "태그"입니다 (예 : "likes_cats"). user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 …

8
특징 별 데이터가 아닌 거리 행렬만으로 K- 평균 (또는 가까운 친척) 클러스터링 수행
내가 가진 객체에서 K- 평균 군집화를 수행하고 싶지만 객체가 공간의 포인트, 즉 objects x features데이터 세트 로 설명되지 않습니다 . 그러나 두 객체 사이의 거리를 계산할 수 있습니다 (유사 기능을 기반으로 함). 그래서 나는 거리 행렬을 폐기합니다 objects x objects. 이전에 K- 평균을 구현했지만 포인트 데이터 세트 입력이있었습니다. 거리 매트릭스 …

2
시계열을 클러스터링하는 방법?
클러스터 분석에 대한 질문이 있습니다. 5 년 동안 전력 사용량에 따라 클러스터링해야하는 3000 개의 회사가 있습니다. 각 회사는 5 년 동안 1 시간마다 값을 갖습니다. 일부 회사에서 일정 기간 동안 동일한 사용 전력 패턴을 갖고 있는지 확인하고 싶습니다. 결과는 전력 사용량을 매일 예측하는 데 사용해야합니다. SPSS에서 시계열을 클러스터링하는 방법에 대한 …

2
클러스터링 비교 : 랜드 인덱스와 정보의 변형
클러스터링을 비교하기 위해 정보 의 변화 와 랜드 인덱스 의 차이에 대한 통찰력이나 직관이있는 사람이 있는지 궁금 합니다. Marina Melia (Journal of Multivariate Analysis, 2007)의 " 클러스터링 비교-정보 기반 거리 " 라는 논문을 읽었 지만 정의의 차이를 알아 차리는 것 외에는 정보의 변화가 무엇인지 이해하지 못합니다. 랜드 인덱스가 캡처하지 않음을 …

4
혼합 데이터가 유클리드 기반 클러스터링 알고리즘에 문제가되는 이유는 무엇입니까?
대부분의 고전적 군집 및 차원 축소 알고리즘 (계층 적 군집, 주요 구성 요소 분석, k- 평균, 자체 구성 맵 ...)은 숫자 데이터를 위해 특별히 설계되었으며 입력 데이터는 유클리드 공간에서 점으로 표시됩니다. 많은 실제 문제에 혼합 된 데이터가 포함되어 있기 때문에 물론 문제입니다. 예를 들어 버스를 연구하는 경우 높이와 길이 및 …

2
k- 평균 군집화가 가우스 혼합 모델링의 한 형태 인 경우 데이터가 정상적이지 않을 때 사용할 수 있습니까?
GMM에 대한 EM 알고리즘과 GMM과 k- 평균 간의 관계에 대한 Bishop을 읽고 있습니다. 이 책에서는 k-means가 GMM의 하드 할당 버전이라고 말합니다. 클러스터링하려는 데이터가 가우시안이 아닌 경우 k- 평균을 사용할 수 없거나 적어도 사용하기에 적합하지 않다는 것을 궁금합니다. 예를 들어, 데이터가 각각 0 또는 1의 값을 가진 8 * 8 픽셀로 …

4
PCA 공간에 새로운 벡터를 투영하는 방법?
주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
비지도 클러스터링을위한 의사 결정 트리와 유사한 알고리즘이 있습니까?
A, B, C, D, E의 5 가지 기능으로 구성된 데이터 집합이 있습니다. 모두 숫자 값입니다. 밀도 기반 클러스터링을 수행하는 대신 의사 결정 트리와 같은 방식으로 데이터를 클러스터링하는 것이 좋습니다. 내가 의미하는 접근 방식은 다음과 같습니다. 알고리즘은 특징 C에 기초하여 데이터를 X 초기 클러스터로 분할 할 수있다. 즉, X 클러스터는 작은 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.