통계적 유의성 테스트를 사용하여 군집 분석 결과 검증

13

클러스터 분석 결과를 검증하기 위해 통계적 유의성 테스트 (SST) 사용을 조사하고 있습니다. 이 주제와 관련하여 다음과 같은 여러 논문을 발견했습니다.

" 높은 차원, 낮은 표본 크기 데이터에 대한 클러스터링의 통계 유의 사항 Fi를 cance 에 의해" 리우, Yufeng의 등. (2008)
" 군집 분석의 일부 유의성 검정에서 ", Bock (1985)

그러나 SST가 군집 분석 결과를 검증하는 데 적합 하지 않다고 주장하는 문헌을 찾는 데 관심이 있습니다. 이것을 주장하는 유일한 소스는 소프트웨어 공급 업체 의 웹 페이지입니다.

명확히하기 위해 :

클러스터 분석의 결과로 중요한 클러스터 구조가 발견되었는지 테스트하는 데 관심이 있으므로 "탐색 데이터 결과의 사후 테스트 가능성에 대한 우려를지지하거나 반박하는 논문에 대해 알고 싶습니다. 클러스터를 찾는 데 사용됩니다 ".

방금 2003 년부터 Milligan과 Hirtle의 " 클러스터링 및 분류 방법 " 이라는 논문을 찾았습니다. 예를 들어, 데이터에 그룹에 대한 임의의 할당이 없기 때문에 ANOVA를 사용하는 것이 유효하지 않은 분석이 될 수 있다고합니다.

hypothesis-testing clustering statistical-significance

— DPS
소스

이것은 좋은 질문이지만, 이분법이있는 것처럼 보이게 표현되어 있음을 지적하는 것이 좋습니다. 클러스터링의 중요성을 테스트 할 수 있거나 할 수 없습니다. "클러스터 분석"은 다양한 것을 의미하기 때문에 상황은 다릅니다. 참고 문헌에서 클러스터링에 대한 증거가 있는지 테스트하는 데 중점을 둡니다. 소프트웨어 매뉴얼에는 클러스터 를 찾는 데 사용 된 탐색 적 데이터 분석 결과의 사후 테스트 가능성에 대한 우려가 올바르게 표현되어 있습니다. 여기에는 모순이 없습니다.

— whuber

대답 해줘서 고마워. 내가 질문을 제기 한 방식에 대해 당신은 옳습니다. 클러스터 분석의 결과로 중요한 클러스터 구조가 발견되었는지 테스트하는 데 관심이 있으므로 "탐색 데이터 결과의 사후 테스트 가능성에 대한 우려를지지하거나 반박하는 논문에 대해 알고 싶습니다. 클러스터를 찾는 데 사용됩니다 ". 방금 데이터가 그룹에 무작위로 할당되지 않았기 때문에, 예를 들어, Milligan과 Hirtle의 2003 "클러스터링 및 분류 방법"에서 논문을 찾았습니다.

— DPS

도움이 될 수 있습니다 : 과학에 의해 눈을 멀게 함 : 부적절하게 검증 된 클러스터 분석 솔루션의 관리 결과, mrs.org.uk/ijmr_article/article/78841

— rolando2

3

동일한 데이터를 사용하여 정의 된 그룹의 분포 차이를 (순진하게) 테스트 할 수 없다는 것은 매우 분명합니다. 이것을 "선택적 테스트", "더블 딥핑", "원형 추론"등이라고합니다.

예를 들어 데이터에서 "키가 큰"사람과 "짧은"사람의 키에 대해 t- 검정을 수행하는 것이 있습니다. null은 (거의) 항상 거부됩니다.

실제로 테스트 단계에서 클러스터링 단계를 설명 할 수 있습니다. 그러나 나는 그것을하는 특정 참고 자료에 익숙하지 않지만 이것이 완료되어야한다고 생각합니다.

— 존 로스
소스

다른 클러스터 그룹에 유의성 테스트를 적용하면 null이 거의 항상 거부된다는 데 동의합니다. 그럼에도 불구하고 클러스터링이 실제로 CA에서 고려 된 모든 변수에 대해 그룹을 훌륭하게 분리 할 수있는 경우에만 해당됩니다. 그룹간에 잘 분리되지 않은 변수가 있는지 확인하기 위해 유의성 테스트를 사용할 수 없습니까 (각 변수에 대해 테스트를 적용한다는 의미)? 이것이 권장되지 않는 합리적인 이유에 대해 자세히 설명해 주시겠습니까?

— luke

공식적인 주장은 각 측정의 오차 항이 제로를 중심으로하지 않는다는 것입니다. 나의 키가 큰 / 짧은 예를 생각해보십시오. 모든 사람들이 같은 분포에서 나왔지만 "높은"그룹에는 양의 평균과 "짧은"음의 평균 오류가 있습니다.

— JohnRos

0

주어진 테스트를 사용한 가설 테스트 대신 부트 스트래핑 수단 또는 클러스터 간의 다른 요약 견적을 권장합니다. 예를 들어 최소 1000 개의 샘플이있는 백분위 수 부트 스트랩에 의존 할 수 있습니다. 핵심은 각 부트 스트랩 샘플에 독립적으로 클러스터링을 적용하는 것입니다.

이 방법은 상당히 강력하고 차이점에 대한 증거를 제공하며 클러스터 간 중요한 차이에 대한 귀하의 주장을 뒷받침합니다. 또한 다른 변수 (클러스터 간 차이)를 생성 할 수 있으며 이러한 차이 변수의 부트 스트랩 추정치는 공식적인 가설 검정과 유사합니다.

— Joe_74
소스