이유 인 F 에도 큰 들면, 정규 분포의 가정에 민감한 변화의 차이 -test ?
웹을 검색하고 라이브러리를 방문했지만 그중 어느 것도 좋은 대답을하지 못했습니다. 이 테스트는 정규 분포에 대한 가정을 위반하는 데 매우 민감하지만 그 이유를 이해하지 못합니다. 누구든지 이것에 대한 좋은 대답이 있습니까?
이유 인 F 에도 큰 들면, 정규 분포의 가정에 민감한 변화의 차이 -test ?
웹을 검색하고 라이브러리를 방문했지만 그중 어느 것도 좋은 대답을하지 못했습니다. 이 테스트는 정규 분포에 대한 가정을 위반하는 데 매우 민감하지만 그 이유를 이해하지 못합니다. 누구든지 이것에 대한 좋은 대답이 있습니까?
답변:
동등성에 대해 표본 분산 쌍을 검정 할 때 분산 비율에 대한 F- 검정을 의미한다고 가정합니다 (정상성에 매우 민감한 가장 간단한 것이므로 ANOVA에 대한 F- 검정은 덜 민감하기 때문에)
정규 분포에서 표본을 추출한 경우 표본 분산에는 카이 제곱 분포가 조정됩니다.
정규 분포에서 추출한 데이터 대신 정규 분포보다 더 두꺼운 분포를 가지고 있다고 상상해보십시오. 그런 다음 척도 화 된 카이-제곱 분포에 비해 너무 큰 분산을 얻을 수 있으며 표본 분산이 가장 오른쪽 꼬리로 나올 확률은 데이터가 도출 된 분포의 꼬리에 매우 반응합니다. (작은 분산도 너무 많지만 그 효과는 약간 덜 뚜렷합니다)
이제 두 표본이 모두 두꺼운 꼬리 분포에서 추출되면 분자의 꼬리가 클수록 F 값이 과도하게 커지고 분모의 꼬리가 클수록 작은 F 값이 과도하게 나타납니다 ( 왼쪽 꼬리의 경우도 마찬가지 ).
두 샘플 모두 동일한 분산을 가지더라도 이러한 효과는 양측 검정에서 기각되는 경향이 있습니다 . 이는 실제 분포가 정규 분포보다 무거울 때 실제 유의 수준이 원하는 것보다 높은 경향이 있음을 의미합니다.
반대로 밝은 꼬리 분포에서 표본을 추출하면 꼬리가 너무 짧은 표본 분산의 분포가 생성됩니다. 분산 값은 정규 분포의 데이터에서 얻는 것보다 "중간"경향이 있습니다. 다시, 충격은 아래쪽 꼬리보다 먼 위쪽 꼬리에서 더 강합니다.
이제 두 표본이 모두 더 밝은 꼬리 분포에서 추출 된 경우 중앙값 근처에서 초과하는 F 값이 발생하고 꼬리 중 하나에서 너무 적습니다 (실제 유의 수준이 원하는 것보다 낮음).
이러한 효과는 샘플 크기가 클수록 크게 줄어드는 것은 아닙니다. 어떤 경우에는 더 악화되는 것 같습니다.
부분적으로 설명하면, 정규 분포, t 5 및 균일 분포에 대한 10000 개의 표본 분산 ( ) 이 χ 2 9 와 동일한 평균을 갖도록 스케일됩니다 .
그것은 피크에 비해 상대적으로 작은이기 때문에 먼 꼬리를보고 조금 어렵다 (과에 대한 꼬리의 관측은 우리에 그려진 한 공정한 방법 과거를 확장), 그러나 우리는에 미치는 영향의 무언가를 볼 수 있습니다 분산의 분포. 카이 제곱 cdf의 역수로 변환하는 것이 더 유익 할 것입니다.
정상적인 경우에는 균일하게 보이고 (필요한 경우), t- 케이스의 경우 상단 꼬리에 큰 피크가 있고 하단에는 작은 피크가 있으며 균일 한 경우에는 언덕 모양이지만 더 넓습니다. 우리는 정규 분포에서 표본을 추출 할 때보 다 0.6에서 0.8 사이의 피크를 가지며 극단은 확률보다 훨씬 낮습니다.
이것들은 앞에서 설명한 분산 비율의 분포에 영향을 미칩니다. 다시 말하지만 꼬리에 미치는 영향을 확인하는 능력을 향상시키기 위해 (이 경우에는 분포의 경우) cdf의 역으로 변환했습니다 .
전체 연구를 위해 조사해야 할 다른 많은 사례가있을 수 있지만, 이는 적어도 그 종류와 효과의 방향뿐만 아니라 그것이 어떻게 발생하는지에 대한 감각을 제공합니다.
Glen_b 가 그의 시뮬레이션에서 훌륭하게 설명 했듯이 분산 비율에 대한 F- 검정은 분포의 꼬리에 민감합니다. 그 이유는 표본 분산의 분산이 첨도 모수에 의존하기 때문에 기본 분포의 첨도는 표본 분산 비율의 분포에 강한 영향을 미치기 때문입니다.
자유도 (기초 첨도에 따라 다름) )는 다음과 같습니다.
In the special case of a mesokurtic distribution (e.g., the normal distribution) you have , which gives the standard degrees-of-freedom and .
Although the distribution of the variance-ratio is sensitive to the underlying kurtosis, it is not actually very sensitive to normality per se. If you use a mesokurtic distribution with a different shape to the normal, you will find that the standard F-distribution approximation performs quite well. In practice the underlying kurtosis is unknown, so implementation of the above formula requires substitution of an estimator . With such a substitution the approximation should perform reasonably well.
Note that this paper defines the population variance using Bessel's correction (for reasons stated in the paper, pp. 282-283). So the denominator of the population variance is in this analysis, not . (This is actually a more helpful way to do things, since the population variance is then an unbiased estimator of the superopopulation variance parameter.)