«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

4
상관 행렬 클러스터링
모든 항목이 다른 항목과 어떻게 관련되는지를 나타내는 상관 관계 매트릭스가 있습니다. 따라서 N 항목의 경우 이미 N * N 상관 행렬이 있습니다. 이 상관 관계 매트릭스를 사용하여 k 번째 빈의 Nk 항목이 동일하게 작동하도록 M 빈의 N 항목을 클러스터링하는 방법은 무엇입니까? 친절하게 도와주세요. 모든 항목 값은 범주 형입니다. 감사. 더 …

5
코사인 상이 행렬을 계산하는 R 함수가 있습니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 작년에 문을 닫았 습니다 . 코사인 거리를 기반으로 행 클러스터링으로 히트 맵을 만들고 싶습니다. 나는 R을 사용 heatmap.2()하고 그림을 만들기 위해 사용하고 있습니다. 나는이 있다고 볼 수 dist있는 …


8
R을 사용한 혼합 유형 데이터 클러스터링
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 혼합 된 데이터 변수가있는 데이터의 클러스터링을 R 내에서 수행 할 수 있는지 궁금합니다. 즉, 숫자 및 범주 형 변수가 모두 포함 된 데이터 세트가 있으며 변수를 묶는 가장 좋은 …


4
범주 형 데이터를 사용하면 변수가 관련되지 않은 군집이있을 수 있습니까?
군집 분석을 설명하려고 할 때 사람들이 변수가 상관되어 있는지 여부와 관련된 것으로 프로세스를 오해하는 것이 일반적입니다. 사람들이 혼란을 극복 할 수있는 한 가지 방법은 다음과 같은 도표입니다. 이것은 군집이 있는지의 여부와 변수가 관련되어 있는지의 여부의 차이를 명확하게 표시합니다. 그러나 이는 연속 데이터의 차이점 만 보여줍니다. 범주 형 데이터가있는 아날로그를 생각하는 …

4
계층 적 클러스터링의 단점을 이해하는 방법?
누군가 계층 적 클러스터링의 장단점을 설명 할 수 있습니까? 계층 적 군집화에는 K와 같은 단점이 있습니까? K 평균에 비해 계층 적 클러스터링의 장점은 무엇입니까? 우리는 언제 계층 적 클러스터링보다 K 수단을 사용해야합니까? 이 게시물에 대한 답변은 k의 단점을 잘 설명합니다. K- 평균의 단점을 이해하는 방법


3
k- 평균의 갭 통계가 왜 두 군집이 있는데도 하나의 군집을 제안합니까?
K- 평균을 사용하여 데이터를 클러스터링하고 "최적의"클러스터 번호를 제안하는 방법을 찾고있었습니다. 갭 통계는 좋은 클러스터 번호를 찾는 일반적인 방법 인 것 같습니다. 어떤 이유로 든 최적의 클러스터 번호로 1을 반환하지만 데이터를 볼 때 2 개의 클러스터가 있음이 분명합니다. 이것이 R에서 간격을 부르는 방법입니다. gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], …

1
희소 데이터 수학에서 작동하는 클러스터링 알고리즘 [닫기]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 다음과 같은 클러스터링 알고리즘 목록을 컴파일하려고합니다. R로 구현 sparseMatrix 함수에 의해 생성 된 것과 같이 희소 데이터 행렬 (유사 행렬이 아님)에서 작동합니다. CV에는이 개념을 …
18 r  clustering  sparse 

4
“차원의 저주”가 실제 데이터에 실제로 존재합니까?
나는 "차원의 저주"가 무엇인지 이해하고 높은 차원의 최적화 문제를 수행했으며 지수 가능성의 도전을 알고 있습니다. 그러나 "차원의 저주"가 대부분의 실제 데이터에 존재하는지 의심합니다. 이미지 나 비디오를 잠시 남겨두고 고객 인구 통계 및 구매 행동 데이터와 같은 데이터에 대해 생각하고 있습니다. 수천 개의 지형지 물로 데이터를 수집 할 수 있지만 지형지 …

2
클러스터링 — Kleinberg의 불가능 성 정리의 직관
클러스터링의 어려움을 탐구하는 Kleinberg (2002) 의이 흥미로운 분석에 대한 블로그 게시물을 작성하려고 생각했습니다 . Kleinberg는 군집화 기능에 대한 직관적으로 보이는 세 가지 욕구를 요약 한 다음 해당 기능이 없음을 증명합니다. 세 가지 기준 중 두 가지를 만족시키는 많은 클러스터링 알고리즘이 있습니다. 그러나 세 기능을 동시에 만족시킬 수있는 기능은 없습니다. 간략하고 …

9
랜드 인덱스 계산
클러스터 알고리즘의 랜드 인덱스를 계산하는 방법을 알아 내려고 노력하고 있지만 참과 거짓 부정을 계산하는 방법에 갇혀 있습니다. 현재 저는 정보 검색에 대한 소개 (Manning, Raghavan & Schütze, 2009) 책의 예를 사용하고 있습니다. 359 페이지에서 Rand 지수를 계산하는 방법에 대해 설명합니다. 이 예에서는 3 개의 클러스터를 사용하며 클러스터에는 다음 객체가 포함되어 …
17 clustering 

1
잠재 된 디리클레 할당을 사용하기위한 입력 매개 변수
주제 모델링 (Latent Dirichlet Allocation)을 사용할 때 주제 수는 사용자가 지정해야하는 입력 매개 변수입니다. Dirichlet 프로세스가 샘플링해야하는 후보 토픽 세트를 제공해야한다고 생각합니까? 이해가 정확합니까? 실제로 이런 종류의 후보 주제 세트를 설정하는 방법은 무엇입니까?

8
클러스터링 품질 측정
입력 매개 변수 (클러스터 수 )가있는 클러스터링 알고리즘 (k가 아닌 )이 있습니다. 클러스터링을 수행 한 후이 클러스터링의 품질을 정량적으로 측정하고 싶습니다. 클러스터링 알고리즘에는 하나의 중요한 속성이 있습니다. 들면 I 피드 경우 I 함유 한 클러스터 얻을 결과,이 알고리즘에 간의 현저한 차이없이 데이터 포인트를 데이터 요소와 함께 하나 개의 클러스터 데이터 …
17 clustering 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.