분산 분석 가정 확인


16

몇 달 전에 나는 R on SO의 homoscedasticity 테스트에 관한 질문을 게시했으며 Ian Fellows는 다음과 같이 대답했습니다.

Homocedasticity 테스트는 모델의 적합도를 테스트 할 때 좋은 도구가 아닙니다. 작은 표본의 경우 동종이 변성에서 이탈을 감지하기에 충분한 검정력이없고 큰 표본의 경우 "충분한 검정력"이 있으므로 평등에서 사소한 이탈까지도 선별 할 가능성이 높습니다.

그의 위대한 대답은 내 얼굴을 때리며왔다. 분산 분석을 실행할 때마다 정규성과 동성애 가정을 확인했습니다.

귀하의 의견으로는 분산 분석 가정을 점검 할 때 가장 좋은 방법은 무엇입니까?

답변:


11

적용된 설정에서는 일반적으로 가정 위반이 추론에 문제가 있는지 여부를 아는 것이 더 중요합니다.

대부분의 추론 테스트는 가벼운 가정 위반에 대해 강력하기 때문에 유의성 테스트를 기반으로 한 가정 테스트는 큰 표본에서 거의 관심이 없습니다.

가정의 그래픽 평가의 좋은 특징 중 하나는 위반의 통계적 중요성이 아니라 위반의 정도에주의를 기울이는 것입니다.

그러나 통계적 유의성 (예 : 왜도 값, 첨도 값, 가장 작은 그룹 분산의 비율 등)이 아니라 가정 위반 정도를 정량화하는 데이터의 숫자 요약에 초점을 맞출 수도 있습니다. 또한이 값에 대한 표준 오차 또는 신뢰 구간을 얻을 수 있으며 표본이 클수록 작아집니다. 이 관점은 통계적 유의성이 실제적인 중요성과 동등하지 않다는 일반적인 아이디어와 일치합니다.


1
모든 것을 마무리하는 위대한 대답에 +1. 언급 된 수치 절차를 적용하는 방법은 Tabachnik 및 Fidell의 다변량 통계 사용 (SPSS 및 SAS의 경우) : amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/… 에 자세히 설명되어 있습니다 (하지만 에라타 참조 ). 웹 페이지)
Henrik

음, 왜도 및 첨도와 같은 대부분의 시간 요약은 가치가 거의 없다고 생각합니다. 그러나 L_skewness와 L-kurtosis로 대체하는 것을 고려할 수 있습니다.
kjetil b halvorsen

@kjetilbhalvorsen 일반적으로 사용하는 샘플 크기에 따라 달라집니다. 필자의 경험에 따르면, 도표 및 왜도 통계는 데이터 분포를 이해하는 데 매우 도움이됩니다.
Jeromy Anglim

@Jeromy Anglim : 알겠습니다. 그런 다음 일반적으로 샘플 크기가 매우 큰 것 같습니다! 왜도 / 커트 시스 계수를 부트 스트랩하려고 했습니까?
kjetil b halvorsen

9

몇 개의 그래프는 일반적으로 정규성 또는 균일 성 검정의 p 값보다 훨씬 더 밝게 나타납니다. 독립 변수에 대한 종속 변수를 플로팅했습니다. 적합치에 대한 관측치를 플로팅합니다. 독립 변수에 대한 잔차를 플로팅합니다. 이 음모에서 이상하게 보이는 것을 조사하십시오. 무언가 이상하게 보이지 않으면, 가정에 대한 중요한 테스트에 대해 걱정하지 않을 것입니다.


대부분 좋은 조언이지만 모든 데이터를 수동으로 살펴볼 수없는 대규모 데이터 세트의 경우는 어떻습니까?
dsimcha

1
n1n2<ασ2

2
@dsimcha re large datasets : "큰"의 의미에 따라 다릅니다. 많은 관찰? 좋은 그래픽을 사용하십시오 (상자 그림, 지터가있는 도트 그림, 해바라기 그림). 많은 독립 변수? 네, 당신은 거기에 포인트가 있습니다 ...하지만 IV가 너무 많아서 각 IV에 대해 DV를 그릴 수 없다면 ANOVA를 전혀 사용하지 않는 것 같습니다. 어떤 해석도 어려운 것 같습니다 케이스. 일부 스마트 머신 러닝 접근 방식이 더 나을 수 있습니다 (Brian D. Ripley : "도발적으로
말하면

좋은 의견, +1 이 특정 질문은 분산 분석에 관한 것이지만 응답을 작성할 때 플롯 대 테스트의 문제에 대해보다 일반적인 수준으로 생각하고있었습니다.
dsimcha

4

ANOVA의 가정을 확인하고 실패한 경우 수행 할 작업에 대한 매우 유용한 웹 안내서입니다. 여기 하나입니다. 이것은 또 다른 것입니다.

본질적으로 당신의 눈은 최고의 판사이므로 탐색 데이터 분석을하십시오 . 즉, 데이터를 나타내야합니다. 히스토그램과 상자 그림은 정규성과 동질성 평가를 평가하는 좋은 방법입니다. 그리고 ANOVA는 이들에 대한 사소한 위반에 강하다는 것을 기억하십시오.


4

QQ 플롯은 비정규 성을 탐지하는 매우 좋은 방법입니다.

동종 요법의 경우 Levene의 테스트 또는 Brown-Forsythe 테스트를 시도하십시오. BF는 조금 더 강력하지만 둘 다 비슷합니다. Bartlett의 테스트보다 비정규성에 덜 민감하지만 여전히 작은 샘플 크기에서 가장 신뢰할 수없는 것으로 나타났습니다.

QQ 플롯

브라운 포시 테스트

레벤의 시험


상대 분포도 (또는 예를 들어 정규 분포와 비교)는 초보자에게는 해석이 더 명확하기 때문에 좋은 대체품이 될 수 있습니다.
kjetil b halvorsen

3

나는 가정에 대한 유의성 테스트에 문제가 있다는 다른 사람들에게 동의합니다.

kk

Wilcoxon 및 Kruskal-Wallis 검정과 같은 반모 수 (순위) 방법은 가정이 훨씬 적습니다. ECDF의로 짓은 Wilcoxon-Kruskal-Wallis 검정이 최대 검정력을 갖도록 평행해야합니다 (유형 I 오류는 문제가되지 않습니다). 선형성이 필요 하지 않습니다. 순위 검정은 서로 다른 그룹의 분포가 다른 분포와 어떻게 관련되어 있는지 가정하지만 한 분포의 모양에 대해서는 가정하지 않습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.