1D 데이터가 1 ​​개 또는 3 개의 값으로 묶여 있는지 여부를 정량적으로 알려주는 방법은 무엇입니까?


9

인간의 심장 박동 사이의 시간에 대한 데이터가 있습니다. 이소성 (추가) 박동의 한 가지 징후는 이러한 간격이 하나가 아닌 세 개의 값으로 묶여 있다는 것입니다. 이를 정량적으로 측정하려면 어떻게해야합니까?

여러 데이터 세트를 비교하려고 하는데이 두 개의 100 빈 히스토그램이 모두 대표적입니다.

여기에 이미지 설명을 입력하십시오

분산을 비교할 수는 있지만 알고리즘이 다른 경우와 비교하지 않고 각 경우에 하나 또는 세 개의 클러스터가 있는지 여부를 감지 할 수 있기를 원합니다.

이것은 오프라인 처리를위한 것이므로 필요한 경우 많은 계산 기능을 사용할 수 있습니다.


답변:


3

k- 평균 사용하지 말 것을 강력히 권합니다 . k의 다른 값에 대한 결과는 비교가되지 않습니다. 이 방법은 조잡한 휴리스틱입니다. 실제로 클러스터링을 사용하려면 데이터에 정규 분포가 포함되어있는 것처럼 보이기 때문에 EM 클러스터링을 사용하십시오. 결과를 검증하십시오!

대신, 명백한 접근 방식은 단일 가우시안 함수를 맞추고 (예를 들어 Levenberg-Marquard 방법을 사용하여) 세 개의 가우시안 함수를 맞추는 것입니다.

그런 다음 두 분포 중 어느 것이 더 적합한 지 테스트합니다.


고마워, 나는 Levenberg-Marquardt를 몰랐다! 이 군집은 가우시안이 아닙니다. 여전히 가우시안 함수가 가장 적합한 PDF라고 생각하십니까?
Nikolaus

이것과 그레그 스노우에게 +1. 나는이 조언에 전적으로 동의합니다. @Nikolaus 나는 이것이 가우스 분포의 혼합에 맞도록 "가우스 충분히"보인다고 생각한다. 완벽하게 맞추기를 원하지 않고 단지 몇 개의 클러스터가 있는지 확인하는 방법입니다. 이 옵틱에서는 모든 구성 요소가 동일한 표준 편차를 공유하도록 제한하는 것이 좋습니다 (Anony-Mousse가 설명하는 이유로).
Elvis

그들은 분명히 나에게 충분히 가우시안으로 보입니다. K- 평균은 Voronoi 셀을 사용하여 데이터를 모델링합니다. 가장 좋은 분리 점이 두 개의 인접한 수단의 중간에 있다고 가정하는 것은 합리적이지 않습니다.
종료 : 익명-무스

6

3 개의 정규 분포의 혼합과 같은 혼합 분포를 데이터에 적합시킨 다음 단일 정규 분포의 적합도 (우도 비율 검정 또는 AIC / BIC 사용)와 비교할 수 있습니다. flexmix에 대한 패키지 R도움이 될 수 있습니다.


4

K- 평균 군집화를 사용하려면 다음을 비교할 방법이 필요합니다. K=1K=3사례. Tibshirani 등 의 간격 통계 를 사용하는 방법이 있습니다 . 그리고K더 나은 가치를 제공합니다. SLmisc 에는 R 구현이 있지만 특정 기능은 시도합니다.K=1,2,3따라서 다음을 보장하기 위해주의를 기울여야합니다. K=1 또는 K=3 최적의 값으로 반환 될 수 있습니다.


2

K- 평균 군집 알고리즘을 사용하여 다양한 방법을 식별하십시오.

적절한 기능을 찾으려면 R-seek에서 KNN 함수를 찾으십시오.


1
아, 난 그냥 게시하려고했습니다! 또한 코드와 whatnots이 링크를 참조 할 수 있습니다 : statmethods.net/advstats/cluster.html
왕에게

Matlab의 kmeans기능으로 시도했습니다 . 결과적인 수단은 시도 할 때마다 크게 다릅니다. (이 구현에서 잘못된 휴리스틱?) 1 클러스터 세트의 경우 때때로 (270,293,693) 주위, 때로는 (260,285,308) 주위에 의미가 있습니다. 3 클러스터 세트의 경우 일부 답변은 (196,324,468) 및 (290,459,478)입니다.
Nikolaus

데이터를 붙여 넣을 수있는 곳이 있습니까?
Nikolaus

693 개 정도의 평균 : 총 755 개 값 중 532 개와 855 개가 있습니다. 나머지 값은 모두 히스토그램에서 볼 수 있습니다.
Nikolaus

k- 평균에서 얻은 수단을 넘어서서 실제로 데이터를 얼마나 잘 묘사하는지 확인해야합니다!
종료-익명-무스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.