정규성 가정에 대해 F- 검정이 왜 그렇게 민감한가요?


16

이유 인 F 에도 큰 들면, 정규 분포의 가정에 민감한 변화의 차이 -test ?N

웹을 검색하고 라이브러리를 방문했지만 그중 어느 것도 좋은 대답을하지 못했습니다. 이 테스트는 정규 분포에 대한 가정을 위반하는 데 매우 민감하지만 그 이유를 이해하지 못합니다. 누구든지 이것에 대한 좋은 대답이 있습니까?


6
어떤 테스트F 에 관심이 있습니까?
S. Kolassa-복원 모니카

분산의 차이를 측정하기위한 F- 검정.
Magnus Johannesen

답변:


35

동등성에 대해 표본 분산 쌍을 검정 할 때 분산 비율에 대한 F- 검정을 의미한다고 가정합니다 (정상성에 매우 민감한 가장 간단한 것이므로 ANOVA에 대한 F- 검정은 덜 민감하기 때문에)

정규 분포에서 표본을 추출한 경우 표본 분산에는 카이 제곱 분포가 조정됩니다.

정규 분포에서 추출한 데이터 대신 정규 분포보다 더 두꺼운 분포를 가지고 있다고 상상해보십시오. 그런 다음 척도 화 된 카이-제곱 분포에 비해 너무 큰 분산을 얻을 수 있으며 표본 분산이 가장 오른쪽 꼬리로 나올 확률은 데이터가 도출 된 분포의 꼬리에 매우 반응합니다. (작은 분산도 너무 많지만 그 효과는 약간 덜 뚜렷합니다)

이제 두 표본이 모두 두꺼운 꼬리 분포에서 추출되면 분자의 꼬리가 클수록 F 값이 과도하게 커지고 분모의 꼬리가 클수록 작은 F 값이 과도하게 나타납니다 ( 왼쪽 꼬리의 경우도 마찬가지 ).

샘플 모두 동일한 분산을 가지더라도 이러한 효과는 양측 검정에서 기각되는 경향이 있습니다 . 이는 실제 분포가 정규 분포보다 무거울 때 실제 유의 수준이 원하는 것보다 높은 경향이 있음을 의미합니다.

반대로 밝은 꼬리 분포에서 표본을 추출하면 꼬리가 너무 짧은 표본 분산의 분포가 생성됩니다. 분산 값은 정규 분포의 데이터에서 얻는 것보다 "중간"경향이 있습니다. 다시, 충격은 아래쪽 꼬리보다 먼 위쪽 꼬리에서 더 강합니다.

이제 두 표본이 모두 더 밝은 꼬리 분포에서 추출 된 경우 중앙값 근처에서 초과하는 F 값이 발생하고 꼬리 중 하나에서 너무 적습니다 (실제 유의 수준이 원하는 것보다 낮음).

이러한 효과는 샘플 크기가 클수록 크게 줄어드는 것은 아닙니다. 어떤 경우에는 더 악화되는 것 같습니다.

부분적으로 설명하면, 정규 분포, t 5 및 균일 분포에 대한 10000 개의 표본 분산 ( n=10 ) 이 χ 2 9 와 동일한 평균을 갖도록 스케일됩니다 .t5χ92

여기에 이미지 설명을 입력하십시오

그것은 피크에 비해 상대적으로 작은이기 때문에 먼 꼬리를보고 조금 어렵다 (과에 대한 t5 꼬리의 관측은 우리에 그려진 한 공정한 방법 과거를 확장), 그러나 우리는에 미치는 영향의 무언가를 볼 수 있습니다 분산의 분포. 카이 제곱 cdf의 역수로 변환하는 것이 더 유익 할 것입니다.

여기에 이미지 설명을 입력하십시오

정상적인 경우에는 균일하게 보이고 (필요한 경우), t- 케이스의 경우 상단 꼬리에 큰 피크가 있고 하단에는 작은 피크가 있으며 균일 한 경우에는 언덕 모양이지만 더 넓습니다. 우리는 정규 분포에서 표본을 추출 할 때보 다 0.6에서 0.8 사이의 피크를 가지며 극단은 확률보다 훨씬 낮습니다.

이것들은 앞에서 설명한 분산 비율의 분포에 영향을 미칩니다. 다시 말하지만 꼬리에 미치는 영향을 확인하는 능력을 향상시키기 위해 (이 경우에는 F9,9 분포의 경우) cdf의 역으로 ​​변환했습니다 .

여기에 이미지 설명을 입력하십시오

t5

전체 연구를 위해 조사해야 할 다른 많은 사례가있을 수 있지만, 이는 적어도 그 종류와 효과의 방향뿐만 아니라 그것이 어떻게 발생하는지에 대한 감각을 제공합니다.


1
정말 좋은 데모
shadowtalker

3

Glen_b 가 그의 시뮬레이션에서 훌륭하게 설명 했듯이 분산 비율에 대한 F- 검정은 분포의 꼬리에 민감합니다. 그 이유는 표본 분산의 분산이 첨도 모수에 의존하기 때문에 기본 분포의 첨도는 표본 분산 비율의 분포에 강한 영향을 미치기 때문입니다.

SN2에스2<

에스2에스211+1에프(에프,에프),

자유도 (기초 첨도에 따라 다름) κ)는 다음과 같습니다.

DFn=2nκ(n3)/(n1)DFC=2(Nn)2+(κ3)(12/N+1/Nn).

In the special case of a mesokurtic distribution (e.g., the normal distribution) you have κ=3, which gives the standard degrees-of-freedom DFn=n1 and DFC=Nn.

Although the distribution of the variance-ratio is sensitive to the underlying kurtosis, it is not actually very sensitive to normality per se. If you use a mesokurtic distribution with a different shape to the normal, you will find that the standard F-distribution approximation performs quite well. In practice the underlying kurtosis is unknown, so implementation of the above formula requires substitution of an estimator κ^. With such a substitution the approximation should perform reasonably well.


Note that this paper defines the population variance using Bessel's correction (for reasons stated in the paper, pp. 282-283). So the denominator of the population variance is N1 in this analysis, not N. (This is actually a more helpful way to do things, since the population variance is then an unbiased estimator of the superopopulation variance parameter.)


+1 This is a very interesting post. Certainly with mesokurtic distributions it's harder to get the variance-ratio distribution to be as far away from the F as is possible with a full-range of distributional choice but it's not so hard to identify cases (at the sample size in my answer, 10 and 10) where the actual type I error rate is more than a little away from a nominal 0.05 rate. The first 3 cases that I tried (distributions with population kurtosis =3 -- all of them symmetric as well) had type I rejection rates of 0.0379, 0.0745 and 0.0785. ... ctd
Glen_b -Reinstate Monica

ctd... I have little doubt that more extreme cases could be identified with a little thinking about how to make the approximation worse. I imagine that it (that the significance level would not be much affected) might hold better in larger samples, though.
Glen_b -Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.