비정규 분포 DV에 대한 분산 분석 결과를 신뢰할 수 있습니까?


22

반복 측정 ANOVA로 실험을 분석했습니다. 분산 분석은 개체 간 요인이 2 개이고 (N = 189) 내에 3이있는 3x2x2x2x3입니다. 오류율은 종속 변수입니다. 오차율 분포는 3.64의 왜곡과 첨도는 15.75입니다. 스큐 및 첨도는 오류율의 90 %가 0이라는 결과입니다. 여기서 정규성 테스트에서 이전 스레드 중 일부를 읽는 것은 약간 혼란 스럽습니다. 정규 분포가 아닌 데이터가 있다면 가능하면 변환하는 것이 가장 중요하다고 생각했지만 많은 사람들이 비정규 데이터를 ANOVA 또는 T- 검정으로 분석하는 것이 용인 될 수 있다고 생각합니다. 분산 분석 결과를 신뢰할 수 있습니까?

(FYI, 미래에는 이항 분포를 갖는 혼합 모델을 사용하여 R에서 이러한 유형의 데이터를 분석하려고합니다)


1
당신은 그 스레드 중 일부에 연결할 수 있습니까? 내 직감은 "NOOO no no no"이지만, 나는 전문가가 아니며 이러한 주장 중 일부를 읽는 데 관심이 있습니다.
매트 파커

4
이러한 종류의 데이터를 사용하여 F 분포에서 파생 된 p- 값을 신뢰할 수 없습니다!
whuber

3
많은 사람들은 비정규 데이터와 함께 ANOVA를 사용하는 것이 정당하다고 ANOVA의 견고성을 인용합니다. IMHO의 견고성은 테스트의 일반적인 속성이 아니지만 a) 테스트의 가정에 대한 위반이 어느 정도 강력하다고 가정하는지 (정상 성, 구형도, ...), b) 이러한 위반이 어느 정도까지 크지 않아야 c) 시험의 전제 조건이 견고성을 나타내는 것 (대형 및 동일한 셀 크기 ...) 스플릿 플롯 디자인에서 누군가가 공분산 행렬의 구형 및 평등에 대한 정확한 가정을 말하게하고 싶습니다. 2 단계 사례에서는 이미 큰 충격을 받고 있습니다.
caracal

3
@Matt 잔차의 90 %가 0 인 것처럼 들립니다. 이 경우, 잔차를 원격으로 정상에 가깝게 변환하지 않습니다. 시뮬레이션 연구에 따르면 F- 검정의 p- 값은 정규성 편차에 매우 민감합니다. (여러분의 경우 F- 검정의 일부 분모가 0이 될 가능성이 상당히 높습니다. 일이 얼마나 잘못 될 수 있는지에 대한 예리한 지표입니다.) 다른 접근법이 필요합니다. 해야 할 일은 잔차가 너무 많은 이유에 따라 다릅니다 . 측정에 충분한 정밀도가 부족합니까?
whuber

2
데이터가 중요하다고 가정하면 @Matt가 더 적절하게 들립니다. 또 다른 매력적인 고려 사항은 부풀려진 음수 이항 반응이 0입니다 ( ats.ucla.edu/stat/r/dae/zinbreg.htm ).
whuber

답변:


20

다른 모수 검정과 마찬가지로 분산 분석에서는 데이터가 정규 분포에 적합하다고 가정합니다. 측정 변수가 정규 분포를 따르지 않으면 anova 또는 정규성을 가정하는 다른 테스트를 사용하여 데이터를 분석하면 오 탐지 가능성이 높아질 수 있습니다. 다행스럽게도, anova는 정규 성과의 중간 편차에 매우 민감하지 않습니다. 다양한 비정규 분포를 사용한 시뮬레이션 연구는 이러한 가정 위반에 의해 오 탐율이 크게 영향을받지 않는 것으로 나타났습니다 (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996). 모집단에서 많은 수의 무작위 표본을 추출 할 때 모집단이 정규적이지 않은 경우에도 해당 표본의 평균이 대략 정규 분포되기 때문입니다.

정규 분포에 대한 데이터 세트의 적합도를 테스트 할 수 있습니다. 상당히 비정규적인 많은 데이터 세트가 anova에 완벽하게 적합하기 때문에이 작업을 수행하지 않는 것이 좋습니다.

대신 충분한 데이터 세트가 있다면 주파수 히스토그램을 살펴 보는 것이 좋습니다. 다소 평범한 것처럼 보이면 계속해서 anova를 수행하십시오. 위의 황산염 데이터와 같이 한쪽으로 밀린 정규 분포처럼 보이는 경우 다른 데이터 변환을 시도하고 히스토그램이 더 정상적인 것처럼 보이는지 확인해야합니다. 그래도 작동하지 않고 데이터가 여전히 비정상적이지 않은 경우에는 anova를 사용하여 데이터를 분석하는 것이 좋습니다. 그러나 비모수 테스트를 사용하여 분석 할 수 있습니다. 거의 모든 파라 메트릭 통계 테스트에는 단방향 anova 대신 Kruskal-Wallis 테스트, 페어 t- 테스트 대신 Wilcoxon 부호 순위 테스트, 선형 회귀 대신 Spearman 순위 상관 관계와 같은 비 파라 메트릭 대체 테스트가 있습니다. 이러한 비모수 적 검정은 데이터가 정규 분포에 적합하다고 가정하지 않습니다. 그러나 서로 다른 그룹의 데이터는 서로 동일한 분포를 가지고 있다고 가정합니다. 그룹마다 모양 분포가 다른 경우 (예 : 하나는 왼쪽으로 치우치고, 다른 하나는 오른쪽으로 치우칩니다) 비모수 적 검정은 모수 적 검정보다 나을 수 있습니다.

참고 문헌

  1. Glass, GV, PD Peckham 및 JR Sanders. 1972. 분산 및 공분산의 고정 효과 분석의 기본 가정을 충족시키지 못한 결과. 교육. 입술 42 : 237-288.
  2. Harwell, MR, EN Rubinstein, WS Hayes 및 CC Olds. 1992. Monte Carlo를 요약하면 방법 론적 연구 결과가 나타납니다. 1 요인 및 2 요인 고정 효과 ANOVA 사례. J. Educ. 통계 17 : 315-339.
  3. Lix, LM, JC Keselman 및 HJ Keselman. 1996. 가정 위반의 결과 재검토 : 분산 F 검정의 일방 분석에 대한 대안의 정량적 검토. 교육. 입술 66 : 579-619.

7
나는 단지 여기에 나의 무지를 보여줄지도 모르지만, 잔차가 정상이라는 ANOVA의 가정이 아닌가? 이 경우 잔차가 패턴에 맞는 한 변수 자체가 비정규인지는 중요하지 않습니다.
richiemorrisroe

5
아마도 질문이 편집되었지만이 답변이 왜지지되고 채택되었는지 이해가되지 않습니다. 일반적인 조언이지만, "왜곡 및 첨도는 오류율의 90 %가 0이라는 결과"와 관련이 있습니다. 이 경우 대답은 아니오, 아니오 및 아니오 여야합니다.
Erik

8

DV로서의 오류율과 관련하여 Dixon (2008) 은 ANOVA를 통한 귀무 가설 테스트가 오경보 율 증가 (실제 효과 가 "중요한"호출) 미스율 증가 (실제 효과 누락 )를 유발할 수 있음을 매우 적극적으로 입증합니다 . 또한 이항 분포 오차를 지정하는 혼합 효과 모델링이 속도 데이터 분석에 더 적합한 접근 방법임을 보여줍니다.


4

너무 많이 기울이고 많은 수의 0으로 ANOVA를 신뢰할 수 없습니다. 보다 적절한 방법은 DV로 오류 수를 사용하여 (따라서 DV를 카운트 데이터로 변환) Poisson 분석을 수행하는 것입니다. 이 접근법은 혼합 효과 분석을 사용하고 오차 분포 패밀리를 포아송으로 지정해야합니다. 딕슨 (2008) * 마이크 로렌스 언급 문서 R뿐만 이항 결과로 혼합 효과 분석을 사용한다. 결과 변수 중 많은 수가 이항이기 때문에 반복 측정 분석 대부분에 대해 R을 수행하기로 완전히 이동했습니다. 적절한 R 패키지는 lme4입니다.

Dixon, P. (2008). 반복 측정 설계의 정확도 모델. 메모리 및 언어 저널 , 59 (4), 447-456.


2

Juan은 많은 것을 제안했지만 다른 사람들을 반향하고 최고의 정확도를 위해 변수 자체가 잔차가 아닌 한 비정규 일 수 있음을 반복합니다. 또한 yellowbrickstats.com 에서 간단하고 약간 더 구조화 된 답변 (주석이 붙은 순서도를 통해)을 이용할 수 있습니다 .


1
죄송하지만 나에게서 -1입니다. 이것은 일반적으로 사실이지만, 인플레이션이 0 인 경우 잔차는 발생하지 않습니다. 나는 대답이 일반성을 다루는 것이 아니라 특정 문제를 해결해야한다고 생각합니다.
Erik

1

천장 효과가 문제입니다. 비모수 적 테스트는 가장 안전한 방법이지만 n이 크면 ANOVA가 이러한 정규성 위반에 강력합니다. 일반적으로 사람들은 히스토그램을 사용하여이를 테스트하지만 문제가 잔차가있는 경우 그보다 더 진행될 수 있습니다. 또한 이것이 결과에만 영향을 미치는 방법을 명심하십시오. Pallant (2007)는 아마도 이것이 유형 1 오류의 가능성을 증가 시킨다고 말할 것이므로 임계 알파를 줄이면이를 완화 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.