«clustering» 태그된 질문

군집 분석은 클래스 레이블과 같은 기존 지식을 사용하지 않고 상호 "유사성"에 따라 데이터를 객체의 하위 집합으로 분할하는 작업입니다. [클러스터 표준 오류 및 / 또는 클러스터 샘플에는 태그가 있어야합니다. "클러스터링"태그를 사용하지 마십시오.]

2
시계열 및 이상 탐지
시계열의 이상을 탐지하기위한 알고리즘을 설정하고 싶습니다.이를 위해 클러스터링을 사용할 계획입니다. 원시 시계열 데이터가 아닌 클러스터링에 거리 매트릭스를 사용해야하는 이유는 무엇입니까?, 이상을 탐지하기 위해 DBscan과 같은 알고리즘 인 밀도 기반 클러스터링을 사용할 것이므로이 경우에도 효과가 있습니까? 스트리밍 데이터 용 온라인 버전이 있습니까? 이상이 발생하기 전에 이상을 감지하고 싶습니다. ARIMA (추세 감지 …

3
계층 적 군집화에서 Ward의 클러스터 간 연결과 함께 Manhattan 거리를 사용하는 것이 좋습니까?
시계열 데이터를 분석하기 위해 계층 적 클러스터링을 사용하고 있습니다. 내 코드는 Mathematica 함수를 사용하여 구현 DirectAgglomerate[...]되며 다음 입력이 주어지면 계층 적 클러스터를 생성합니다. 거리 행렬 D 클러스터 간 연결을 결정하는 데 사용되는 방법의 이름 맨해튼 거리를 사용하여 거리 행렬 D를 계산했습니다. d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| 여기서 및 n ≈ …


1
순도를 계산하는 방법?
군집 분석에서 순도는 어떻게 계산합니까? 방정식은 무엇입니까? 나는 그것을 위해 그것을 할 코드를 찾고 있지 않다. ωkωk\omega_k 를 군집 k로하고 cjcjc_j 를 클래스 j로 하자 . 순도는 실제로 정확도입니까? 샘플 크기에 대해 클러스터 당 실제로 분류 된 클래스의 양을 합한 것 같습니다. 방정식 소스 문제는 출력과 입력 사이의 관계는 무엇입니까? …
15 clustering 

3
클러스터링의 데이터 출력을 플롯하는 방법은 무엇입니까?
데이터 세트 (마크 세트)를 클러스터링하려고 시도하고 2 개의 클러스터를 얻었습니다. 그래픽으로 표현하고 싶습니다. (x, y) 좌표가 없기 때문에 표현에 대해 약간 혼란 스럽습니다. 또한 MATLAB / Python 함수를 찾고 있습니다. 편집하다 데이터를 게시하면 질문이 더 명확 해집니다. 파이썬에서 kmeans 클러스터링을 사용하여 만든 두 개의 클러스터가 있습니다 (scipy를 사용하지 않음). 그들은 …

2
클러스터링을위한 Dirichlet 프로세스 : 레이블을 처리하는 방법?
Q : Dirichlet Process를 사용하여 데이터를 클러스터링하는 표준 방법은 무엇입니까? Gibbs 샘플링을 사용하면 샘플링 중에 클러스터가 나타나고 사라집니다. 게다가 사후 분포가 군집 재 표식에 변동이 없기 때문에 식별 가능성 문제가 있습니다. 따라서 우리는 어느 사용자의 클러스터인지를 말할 수 없지만 두 명의 사용자가 동일한 클러스터에 있다고 말할 수 있습니다 (즉, ).p(ci=cj)p(ci=cj)p(c_i=c_j) …

2
k- 평균 대 k- 중간 값?
k- 평균 군집 알고리즘과 k- 중간 값이 있다는 것을 알고 있습니다. 하나는 평균을 군집의 중심으로 사용하고 다른 하나는 중앙값을 사용합니다. 내 질문은 언제 / 어디를 사용해야합니까?

2
숫자 데이터를 자연스럽게 형성되는 "브래킷"으로 그룹화하려면 어떻게해야합니까? (예 : 소득)
다음은 내가 달성하려는 것을 설명하지만 다른 문제 진술이 내 목표를 설명 할 수 있습니다. 하고 싶다 각 그룹 내 숫자의 분산이 너무 크지 않고 그룹 평균 간의 차이가 너무 작지 않은 그룹으로 다음 숫자를 나눕니다. 마지막에 얻은 분포를 "완벽한"분포와 비교하고 그것이 "완벽한"것과 얼마나 다른지보십시오. 레이맨의 목표 설명 소득 분포를 계산 …

3
다른 알고리즘 대신 k- 평균을 사용하는 이유는 무엇입니까?
나는 k- 평균에 대해 연구했고 이것들은 내가 얻은 것입니다 : k- 평균은 감독되지 않은 학습 방법을 사용하여 알려진 클러스터링 문제를 해결하는 가장 간단한 알고리즘 중 하나입니다. 큰 데이터 세트에서 실제로 잘 작동합니다. 그러나 K-Means의 단점은 다음과 같습니다. 특이 치 및 노이즈에 대한 강한 감도 비 원형 클러스터 형태에서는 제대로 작동하지 …

4
클러스터의 모양을 측정하는 방법?
이 질문은 잘 정의되지 않았지만 일부 클러스터는 타원형이거나 낮은 차원 공간에있는 반면 다른 클러스터는 비선형 모양 (2D 또는 3D 예)이 있습니다. 클러스터의 비선형 성 (또는 "모양") 측정 값이 있습니까? 2D 및 3D 공간에서는 클러스터의 모양을 보는 것이 문제가되지 않지만 더 높은 차원 공간에서는 모양에 대해 말하는 것이 문제가됩니다. 특히 볼록한 …

3
시계열 유사성을 결정하기 위해 동적 시간 왜곡을 설명 할 수 있습니까?
시계열을 비교하기위한 동적 시간 왜곡 측정을 파악하려고합니다. 다음과 같은 세 가지 시계열 데이터 집합이 있습니다. T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, 0.00029057097196, 0.000353232073472, 0.000394710874285, …

8
머신 러닝을위한 "핫 알고리즘"은 무엇입니까?
이것은 기계 학습을 배우기 시작한 누군가의 순진한 질문입니다. 저는 요즘 Marsland의 "Machine Learning : 알고리즘 관점"이라는 책을 읽고 있습니다. 소개 책으로 유용하다고 생각하지만 현재는 최상의 결과를 제공하는 고급 알고리즘으로 가고 싶습니다. 나는 주로 생물 정보학에 관심이있다 : 생물학적 네트워크의 클러스터링과 생물학적 염기 서열에서의 패턴 발견, 특히 단일 염기 다형성 (SNP) …

3
클러스터링에 대한
누구나 L 2 대신 L1L1L_1 또는 L.5L.5L_.5 메트릭을 클러스터링에 사용 합니까? Aggarwal et al., 고차원 공간에서의 거리 측정법의 놀라운 행동에 대해 (2001 년)L2L2L_2 높은 차원의 데이터 마이닝 응용 프로그램에 대해L1L1L_1유클리드 거리 측정법 보다 L 1 이 지속적으로 더 바람직 L2L2L_2합니다. 또는 이 아직 더 수 있다고 주장했습니다 .L.5L.5L_.5L.1L.1L_.1 또는 를 …

9
클러스터링을위한 시각화 소프트웨어
잠김 . 이 질문과 주제는 주제가 다르지만 역사적으로 중요하기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. ~ 22000 포인트를 클러스터하고 싶습니다. 많은 클러스터링 알고리즘은 고품질 초기 추측으로 더 잘 작동합니다. 거친 데이터 형태에 대한 좋은 아이디어를 제공 할 수있는 도구는 무엇입니까? 나는 자신의 거리 측정법을 선택할 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.