k- 평균 군집 분석 후 분산 분석의 적절성


14

K- 평균 분석 후 ANOVA 표 뒤의 통지는 거리를 최대화하기 위해 유클리드 거리를 기반으로 군집 솔루션이 도출되었으므로 유의 수준을 동일한 평균의 검정으로 간주해서는 안됨을 나타냅니다. 군집 변수의 평균이 군집마다 다른지 여부를 나타 내기 위해 어떤 테스트를 사용해야합니까? k- 평균 출력의 제공된 분산 분석표에서이 경고를 보았지만 일부 참조에서는 사후 분산 분석 테스트가 실행되는 것을 볼 수 있습니다. k- 평균 ANOVA 출력을 무시하고 사후 테스트로 단방향 ANOVA를 실행하고 전통적인 방식으로 해석해야합니까? 아니면 F 값의 크기와 어떤 변수가 차이에 더 큰 영향을 줄 수 있습니까? 또 다른 혼란은 군집 변수가 ANOVA의 가정을 위반하여 정규 분포를 따르지 않는다는 것입니다. 그런 다음 Kruskal-Wallis 비모수 테스트를 사용할 수 있지만 동일한 분포에 대한 가정이 있습니다. 특정 변수에 대한 클러스터 간 분포는 같지 않고 일부는 긍정적으로 치우쳐 있고 일부는 부정적입니다 ... 1275 개의 큰 표본, 5 개의 군집, 10 개의 군집 변수가 PCA 점수로 측정되었습니다.


평균의 평등을 테스트해야하는 이유는 무엇입니까? 모델이 샘플에서 어떻게 작동하는지 테스트 할 수 없습니까?
제임스

클러스터간에 어떤 변수의 의미가 다른지 결정하고 싶었습니다. 즉 cluster1의 v1 평균이 cluster, 2, 3, 4, 5의 v1 평균과 다른지 여부를 확인하고 싶었습니다. 물론 그래프를 작성하여 볼 수 있습니다. 통계적 차이에 대해 말하지 마십시오. ANOVA의 경우 데이터가 정규 분포 가정을 충족하지 않았지만 Kruskal Wallis 테스트의 군집 그룹간에 동일한 모양 분포 가정이 있었기 때문에 통계적 차이에 대한 테스트로 인해 혼란 스러웠습니다.
잉가

1
@James가 그의 답변에서 지적했듯이, 당신은 "스누핑"입니다. 귀하 (클러스터링)가 사전에 선택한 그룹들 간의 차이를 테스트하기 위해 어떤 이유가 있을 수 있습니까? 여기에는 외부 의 backgroud 특성 에 따라 구별되는 모집단의 무작위 또는 비례 샘플링에 대한 표시가 없습니다 .
ttnphns 2014 년

답변 주셔서 감사합니다! 일부 출처에서와 같이 혼란이 나타났습니다.이 상황에서는 통계적 평균 비교가 적절하지 않다는 것을 알았습니다. 예를 들어, 1 권의 장에서 인용 한 인용문은 반대를 나타냅니다. 이상적으로는 분석에 사용 된 모든 차원은 아니지만 대부분의 경우 서로 다른 평균을 얻을 수 있습니다. 각 차원에서 수행되는 F 값의 크기는 각 차원이 얼마나 잘 구별되는지를 나타냅니다. 클러스터 "
Inga

1
귀하는 가장 차별적 인 것을 찾기 위해 군집에 사용 된 특성에 따라 군집 간의 차이를 평가할 권리가 있습니다. 그렇게 할 때 상대 차이, F 및 p- 값을 계산할 수 있습니다. 효과 크기의 지표. 통계적 유의성의 지표가 아닙니다 (인구를 나타냄).
ttnphns 2014 년

답변:


13

아니!

당신은 있어야합니다 클러스터에있는 점 사이에 상당한 차이를 클러스터링 및 2) 사냥을 수행) 1에 동일한 데이터를 사용할 수 없습니다. 데이터에 실제 구조가 없더라도 클러스터링은 근처에있는 점을 그룹화하여 하나를 적용합니다. 이렇게하면 그룹 내 분산이 줄어들고 그룹 간 분산이 커져 오 탐지로 편향됩니다.

이 효과는 놀랍도록 강합니다. 다음은 표준 정규 분포에서 1000 개의 데이터 점을 그리는 시뮬레이션 결과입니다 . 분산 분석을 실행하기 전에 무작위로 5 개 그룹 중 하나에 점을 할당하면 p- 값이 균일하게 분포되어 있음을 알 수 있습니다. 런의 5 %는 (수정되지 않은) 0.05 레벨에서, 0.01 %에서 1 %, 다시 말해, 효과가 없습니다. 그러나 평균을 사용하여 데이터를 5 개의 그룹으로 클러스터링하는 경우 데이터에 실제 구조가 없더라도 거의 매번 큰 영향을 미칩니다 .k

무작위 할당에 대한 p 값의 균일 한 분포와 군집화 후 p 값의 치우친 (거의 0.05 이하) 분포를 보여주는 시뮬레이션 결과

분산 분석에는 특별한 것이 없습니다. 비모수 적 테스트, 로지스틱 회귀 등을 사용하여 유사한 효과를 볼 수 있습니다. 일반적으로 클러스터링 알고리즘의 성능을 검증하는 것은 까다 롭습니다 (특히 데이터에 레이블이 지정되지 않은 경우). 그러나 "내부 유효성 검사"또는 외부 데이터 소스를 사용하지 않고 클러스터의 품질을 측정하는 몇 가지 방법이 있습니다. 이들은 일반적으로 클러스터의 소형화 및 분리성에 중점을 둡니다. 이 검토 는 Lui et al. (2010)은 시작하기에 좋은 장소 일 수 있습니다.


4

실제 문제는 데이터 스누핑입니다. 관측치가 입력 데이터 세트 자체를 기반으로 그룹 (클러스터)에 할당 된 경우 분산 분석 또는 KW를 적용 할 수 없습니다. 갭 통계 와 같은 것을 사용 하여 군집 수를 추정하는 것이 가능합니다.

반면, 스누핑 된 p- 값은 아래쪽으로 치우 치므로 ANOVA 또는 KW 테스트 결과가 중요하지 않으면 "true"p- 값이 더 커져 클러스터를 병합하기로 결정할 수 있습니다.


4

평범한 null 분포를 던지면 그러한 접근법 (예 : F- 통계 또는 t- 통계 등의 통계 사용)을 적용 할 수 있다고 생각합니다 .

당신이해야 할 일은 null이 true 인 상황에서 시뮬레이션하고 전체 절차 (클러스터 등)를 적용 한 다음 매번 통계를 계산하는 것입니다. 여러 시뮬레이션에 적용하면 표본 값을 비교할 수있는 널 (NULL) 아래에서 통계 분포를 얻을 수 있습니다. 데이터 스누핑을 계산에 통합함으로써 그 효과를 설명합니다.

다른 대안으로 리샘플링 기반 테스트를 개발할 수도 있습니다 (순열 / 랜덤 화 또는 부트 스트래핑 기반).


2
갭 통계의 기본 개념입니다.
제임스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.