클러스터링 배포

10

여러 분포가 있습니다 (아래 그림에서 10 개의 분포).

실제로 이것은 히스토그램입니다. x 축에는 용액 내 일부 입자의 크기 인 70 개의 값이 있으며 x의 각 값에 대해 y의 해당 값은 크기가 x 값 근처 인 입자의 비율입니다.

이 배포판을 클러스터하고 싶습니다. 현재 유클리드 거리와 같은 계층 적 클러스터링을 사용하고 있습니다. 거리의 선택에 만족하지 않습니다. Kullback-Leibler와 같은 정보 이론적 거리를 시도했지만 데이터에 0이 많으며 어려움이 있습니다. 적절한 거리 및 / 또는 다른 클러스터링 방법에 대한 제안이 있습니까?

clustering

— 스테판 로랑
소스

16

모든 배포판이 동일한 70 개의 이산 값을 가질 수 있다는 것을 이해합니다. 그런 다음 분포의 누적 곡선을 쉽게 비교할 수 있습니다 (누적 곡선을 비교하는 것이 분포를 비교하는 일반적인 방법 임). 모양, 위치 및 분산의 차이에 대한 옴니버스 비교입니다.

따라서 (A, B, ... 등은 분포입니다) 형식으로 데이터를 준비하십시오.

Value CumProp_A CumProp_B ...
1       .01       .05
2       .12       .14
...     ...       ...
70      1.00      1.00

그리고 분포들 사이의 거리 매트릭스를 계산하도록 구성된다. 계층 적 클러스터링에 제출하십시오 (완전한 연결 방법을 권장합니다). 몇 거리? 두 누적 곡선이 하나의 값 ( b ) 에서 멀리 떨어져있는 경우 매우 다르다고 생각되면 체비 쇼프 거리를 사용하십시오. 하나의 값이 넓은 범위의 값 ( c )을 따라 다른 것보다 안정적으로 높은 경우에만 두 누적 곡선이 매우 다르다고 생각되면 자기 상관 거리를 사용하십시오. 커브 간의 로컬 차이가 중요한 경우 ( a ) 맨해튼 거리를 사용하십시오.

여기에 이미지 설명을 입력하십시오

PS 자동 상관 거리는 누적 곡선 X와 Y 사이의 차이의 정규화되지 않은 자기 상관 계수 일뿐입니다.

$\sum_{i=2}^N (X-Y)_i*(X-Y)_{i-1}$

— ttnphns
소스

훌륭합니다-많은 감사합니다! 나는 내일 이것을 할 것이다

— Stéphane Laurent

자기 상관 거리는 음수 일 수 있습니다. 정말 좋은 정의입니까?

— Stéphane Laurent

다른 질문을하는 것을 잊었습니다 : 왜 완전한 연결을 추천 하시겠습니까?

— Stéphane Laurent

마이너스 제품 용어가있는 경우 0으로 설정할 수 있습니다. 나는 완전한 연결을 고집하지 않고 오히려 거리가 유클리드가 아니기 때문에 Ward 나 centroid와 같은 "형상"방법에 대해 경고했다. 나는 또한 완전한 연결과 같은 "확장"방법이 당신의 취향에 있다고 생각했다

— ttnphns

4

데이터가 히스토그램 인 경우 "히스토그램 교차 거리"와 같은 적절한 거리 함수를 살펴볼 수 있습니다.

ELKI라는 도구에는 다양한 클러스터링 알고리즘 (k- 평균 및 계층 적 클러스터링보다 훨씬 현대적인 알고리즘)이 있으며 대부분의 알고리즘에서 사용할 수있는 히스토그램 교차 거리 버전도 포함되어 있습니다. 사용 가능한 몇 가지 알고리즘을 시도해 볼 수 있습니다. 위에서 제시 한 줄거리에서 당신이 무엇을하고 싶은지 불분명합니다. 개별 히스토그램을 그룹화하십시오. 위에서 보여준 10에서 판단하면 클러스터가 없을 수 있습니다.

— 종료-익명-무스
소스

감사. 그러나 R 또는 SAS에서 사용할 수있는 도구를 찾고 있습니다. 그런 다음 위의 10 가지 분포는 하나의 예일뿐입니다. 클러스터에 대한 일련의 분포가 많이 있습니다.

— Stéphane Laurent

2

k- 평균 또는 다른 유형의 클러스터링에 대한 설명자를 도출하기 위해 일부 기능 추출 기술을 사용할 수 있습니다.

기본 접근 방식은 히스토그램에 특정 분포를 맞추고 해당 매개 변수를 설명 자로 사용하는 것입니다. 예를 들어 2 개의 평균과 2 개의 표준 편차로 설명 할 수있는 이봉 분포가있는 것 같습니다.

또 다른 가능성은 히스토그램 수의 처음 2 개 또는 3 개의 주요 구성 요소를 클러스터링하는 것입니다.

대안으로 웨이블릿 접근법이 사용될 수있다.

이 페이지는 세포 외 스파이크를 다룰 때 그렇게하는 방법을 설명합니다. 데이터는 다르지만 아이디어는 사례에 적용 할 수 있어야합니다. 또한 하단에 많은 참고 문헌이 있습니다.

http://www.scholarpedia.org/article/Spike_sorting

R에서는 princomp또는 prcomp함수를 사용하여 피크의 주요 성분을 계산할 수 있습니다 . 여기 에서 R의 PCA에 대한 자습서를 찾을 수 있습니다.

웨이블릿의 경우 wavelets패키지를 볼 수 있습니다 .

K-수단은 상기 이용하여 달성 될 수있는 클러스터링 kmeans기능.

— 니코
소스

감사합니다. 가능하면 제안을 검토하겠습니다.

— Stéphane Laurent