«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

1
DBSCAN에 대해 eps 및 minPts를 선택하는 루틴
DBSCAN은 일부 문헌에 따르면 가장 많이 인용되는 클러스터링 알고리즘이며 밀도에 따라 임의의 모양 클러스터를 찾을 수 있습니다. 그것은 두 개의 매개 변수 eps (인접 반경으로)와 minPts (점을 핵심 지점으로 고려하기위한 최소 이웃으로)를 가지고 있습니다. 이러한 매개 변수를 선택하기 위해 일상적으로 사용되는 방법이 있습니까?

2
R에 발견 된 군집의 중심을 취하여 군집을 새로운 데이터 세트에 할당하는 기능이 있습니까?
내가 다차원 데이터 세트의 두 부분으로,의 그들을 부르 자 train와 test. 열차 데이터 세트를 기반으로 모델을 빌드 한 다음 테스트 데이터 세트에서 모델을 검증하려고합니다. 클러스터 수는 알려져 있습니다. R에서 k- 평균 군집화를 적용하려고 시도했으며 군집 중심을 포함하는 객체를 얻었습니다. kClust <- kmeans(train, centers=N, nstart=M) R에 발견 된 군집의 중심을 취하여 …
14 r  clustering  k-means 


3
kmeans를 실행하기 전에 상관 관계 / 공 선형 변수를 삭제해야합니까?
고객의 클러스터를 식별하기 위해 kmeans를 실행하고 있습니다. 클러스터를 식별하는 약 100 개의 변수가 있습니다. 이러한 각 변수는 고객이 카테고리에서 지출 한 비율을 나타냅니다. 따라서 100 개의 카테고리가있는 경우 각 고객에 대해이 변수의 합이 100 %가되도록 100 개의 변수를 갖습니다. 이제이 변수들은 서로 밀접하게 연관되어 있습니다. kmeans를 실행하기 전에 공선 성을 …

5
최소 클러스터 크기 제한이있는 클러스터링 (k- 평균 또는 기타)
그룹 내 제곱합 (WSS)을 최소화하기 위해 장치를 클러스터로 클러스터링해야하지만 클러스터에 적어도 단위가 포함되도록해야합니다 . R의 군집 기능 중 최소 군집 크기 제약 조건이 적용 되는 군집으로 군집 할 수있는 아이디어가 있습니까? kmeans ()는 크기 제한 옵션을 제공하지 않는 것 같습니다.m kkkkmmmkkk
14 r  clustering 

5
거리 (유클리드)를 유사성 점수로 변환하는 방법
사용하여 스피커 음성을 클러스터링한다는 의미입니다. 발화를 클러스터 된 스피커 데이터와 비교하면 (유클리드 거리 기반) 평균 왜곡이 발생합니다. 이 거리는 범위에있을 수 있습니다 . 이 거리를 유사성 점수 로 변환하고 싶습니다 . 내가 어떻게 이것을 달성 할 수 있는지 안내해주세요.kkk[0,∞][0,∞][0,\infty][ 0 , 1 ][0,1][0,1]

1
중복 제거 기술
레코드 중복 제거의 최첨단 방법은 무엇입니까? 중복 제거는 레코드 연결, 엔터티 확인, ID 확인, 병합 / 지우기라고도합니다. 예를 들어 CBLOCK [1]에 대해 알고 있습니다. 답변에 메소드를 구현하는 기존 소프트웨어에 대한 참조도 포함되어 있다면 감사하겠습니다. 예를 들어 Mahout이 캐노피 클러스터링을 구현 한다는 것을 알고 있습니다. Lucene을 사용하는 Duke 도 있습니다 . …

3
R의 빅 데이터 클러스터링 및 샘플링과 관련이 있습니까?
데이터 과학을 처음 사용하고 R에서 200,000 개의 행과 50 개의 열이있는 데이터 세트에서 클러스터를 찾는 데 문제가 있습니다. 데이터에는 숫자 변수와 명목 변수가 모두 있으므로 유클리드 거리 측정을 사용하는 K- 평균과 같은 방법은 적절한 선택처럼 보이지 않습니다. 따라서 거리 매트릭스를 입력으로 받아들이는 PAM, agnes 및 hclust로 전환합니다. 데이지 방법은 혼합 …

5
임시 데이터에 적합한 클러스터링 기술?
활동 빈도에 대한 일시적인 데이터가 있습니다. 비슷한 활동 수준으로 뚜렷한 기간을 나타내는 데이터에서 클러스터를 식별하고 싶습니다. 이상적으로 는 사전에 클러스터 수를 지정 하지 않고 클러스터를 식별하고 싶습니다 . 적절한 클러스터링 기술은 무엇입니까? 질문에 대답 할 정보가 충분하지 않은 경우 적절한 클러스터링 기술을 결정하기 위해 제공해야하는 정보는 무엇입니까? 아래는 제가 상상하고있는 …

4
데이터 세트의 랜덤 서브 샘플을 사용하여 K- 평균 센터를 초기화합니까?
특정 데이터 세트가있는 경우 해당 데이터 세트의 임의 샘플을 사용하여 클러스터 센터를 초기화하는 것이 얼마나 영리합니까? 예를 들어, 내가 원한다고 가정하십시오 5 clusters. 내가 가지고 5 random samples, 말의 size=20%원본 데이터 셋의. 그런 다음이 5 개의 임의 샘플 각각의 평균을 취하여 해당 평균을 5 개의 초기 클러스터 센터로 사용할 수 …

2
통계적 유의성 테스트를 사용하여 군집 분석 결과 검증
클러스터 분석 결과를 검증하기 위해 통계적 유의성 테스트 (SST) 사용을 조사하고 있습니다. 이 주제와 관련하여 다음과 같은 여러 논문을 발견했습니다. " 높은 차원, 낮은 표본 크기 데이터에 대한 클러스터링의 통계 유의 사항 Fi를 cance 에 의해" 리우, Yufeng의 등. (2008) " 군집 분석의 일부 유의성 검정에서 ", Bock (1985) 그러나 …

2
클러스터링 결과 비교 이해
데이터를 그룹으로 분류하는 실험을하고 있습니다. 나는이 주제를 처음 접했고 일부 분석 결과를 이해하려고 노력했다. Quick-R의 예제를 사용하여 여러 R패키지가 제안됩니다. 이 패키지 중 두 가지 ( 함수 및 )를 fpc사용해 보았습니다 . 내가 이해하지 못하는이 분석의 한 측면은 결과를 비교하는 것입니다.kmeansmclust # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) …
13 r  clustering 

1
올가미에 대한 LARS 대 좌표 하강
L1 정규 선형 회귀 피팅에 LARS [1] 사용과 좌표 하강 사용의 장단점은 무엇입니까? 나는 주로 퍼포먼스 측면에 관심이있다 (내 문제는 N수십만에서 p20 이하인 경향이있다 ). 그러나 다른 통찰력도 인정 될 것이다. 편집 : 내가 질문을 게시 한 후 chl은 Friedman 등의 논문 [2]에 좌표 하강이 다른 방법보다 상당히 빠른 것으로 …

4
이러한 상관 기반 거리에 대해 삼각형 부등식이 충족됩니까?
계층 적 클러스터링의 경우 두 개의 임의 변수 XXX 와 사이의 거리를 측정하기위한 다음 두 가지 "메트릭"(정확히 말하지는 않음)을 종종 볼 수 있습니다 YYY. 중 하나를 수행합니다. 하나는 삼각형 불평등을 충족 시키는가? 그렇다면 브 루트 포스 계산 이외의 다른 방법으로 어떻게 증명해야합니까? 측정 항목이 아닌 경우 간단한 카운터 예는 무엇입니까?\newcommand{\Cor}{\mathrm{Cor}} …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.