일부 책은 중앙 한계 정리가 대한 근사치를 제공하기 위해 크기가 30 이상인 표본 크기가 필요하다고 명시합니다 .
이것이 모든 배포에 충분하지 않다는 것을 알고 있습니다.
큰 표본 크기 (아마도 100 또는 1000 이상)에서도 표본 평균의 분포가 여전히 치우친 분포의 일부 예를보고 싶습니다.
나는 이전에 그러한 예를 보았지만 어디에서 찾을 수 없으며 기억할 수 없습니다.
일부 책은 중앙 한계 정리가 대한 근사치를 제공하기 위해 크기가 30 이상인 표본 크기가 필요하다고 명시합니다 .
이것이 모든 배포에 충분하지 않다는 것을 알고 있습니다.
큰 표본 크기 (아마도 100 또는 1000 이상)에서도 표본 평균의 분포가 여전히 치우친 분포의 일부 예를보고 싶습니다.
나는 이전에 그러한 예를 보았지만 어디에서 찾을 수 없으며 기억할 수 없습니다.
답변:
일부 책은 중앙 한계 정리가 대한 근사치를 제공하기 위해 크기가 30 이상인 표본 크기가 필요하다고 명시합니다 .
이 일반적인 경험 법칙은 거의 완전히 쓸모가 없습니다. n = 2가되는 비정규 분포와 훨씬 더 큰 이 불충분 한 비정규 분포 가 있으므로 상황에 대한 명시적인 제한없이 규칙이 오도됩니다. 어쨌든, 그것이 사실이더라도, 필요한 은 당신이하고있는 것에 따라 달라질 것입니다. 종종 작은 의 분포 중심 근처에서 좋은 근사값을 얻지 만 꼬리에서 적절한 근사값을 얻으려면 훨씬 큰 이 필요 합니다.
편집 : 이 문제에 대한 수많은 만장일치 만장일치 의견과 좋은 링크에 대해서는 이 질문에 대한 답변을 참조하십시오 . 나는 당신이 이미 그것을 분명히 이해했기 때문에 요점을 풀지 않을 것입니다.
표본 크기가 크거나 (100 또는 1000 이상일 수 있음) 표본 평균의 분포가 여전히 상당히 왜곡 된 분포의 몇 가지 예를보고 싶습니다.
예제는 구성하기가 비교적 쉽습니다. 쉬운 방법 중 하나 는 비정규 분포를 무한정으로 나누고 나누는 것입니다. 평균을 구하거나 요약 할 때 법선에 접근 할 수있는 법칙이 있다면 '법선에 가까움'의 경계에서 시작하여 원하는만큼 나누십시오. 예를 들어 :
모양 모수가 감마 분포를 고려하십시오 . 스케일을 1로 설정하십시오 (스케일은 중요하지 않음). 을 "충분히 정상"으로 간주한다고 가정 해 보겠습니다 . 그런 다음 관측치가 1000이되도록 정규 분포를 분포 에는 분포가 있습니다.
따라서 감마가 '정상적으로 충분' 하다고 생각되면 -
그런 다음 을 1000으로 나누면 .
이들 중 평균 1000 개는 첫 번째 pdf의 모양을 갖습니다 (단, 스케일은 아님).
Cauchy와 같이 정규에 접근하지 않는 무한 분할 가능한 분포를 대신 선택하면 표본 평균이 대략 정규 분포를 갖는 표본 크기가 없을 수 있습니다 (또는 경우에 따라 정규성에 접근 할 수는 있지만 당신은 필요가 없습니다 ) 표준 오류에 대한 효과를.
오염 된 분포에 관한 @whuber의 요점은 매우 좋은 것입니다. 이 경우 시뮬레이션을 시도하고 많은 샘플에서 사물이 어떻게 작동하는지 확인하는 것이 좋습니다.
이 문서가 도움이되거나 최소한 흥미로울 수 있습니다.
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
UMass의 연구원들은 실제로 당신이 요구하는 것과 비슷한 연구를 수행했습니다. CLT로 인해 특정 분포 데이터가 정규 분포를 따르는 표본 크기는 무엇입니까? 심리학 실험을 위해 수집 된 많은 데이터가 정규 분포 근처에있는 것은 아니기 때문에 징계는 통계에 대한 추론을 수행하기 위해 CLT에 크게 의존합니다.
Table 2. Percentage of replications that departed normality based on the KS-test.
Sample Size
5 10 15 20 25 30
Normal 100 95 70 65 60 35
Uniform 100 100 100 100 100 95
Bimodal 100 100 100 75 85 50
이상하게도 정규 분포 데이터의 65 %가 표본 크기 20으로 거부되었으며 표본 크기가 30 인 경우에도 35 %는 여전히 거부되었습니다.
그런 다음 Fleishman의 전력 방법을 사용하여 생성 된 몇 가지 치우친 분포를 테스트했습니다.
X는 정규 분포에서 얻은 값을 나타내며 a, b, c 및 d는 상수입니다 (a = -c).
그들은 최대 300 개의 샘플 크기로 테스트를 실행했습니다.
Skew Kurt A B C D
1.75 3.75 -0.399 0.930 0.399 -0.036
1.50 3.75 -0.221 0.866 0.221 0.027
1.25 3.75 -0.161 0.819 0.161 0.049
1.00 3.75 -0.119 0.789 0.119 0.062
그들은 최고 수준의 스큐 및 커트 (1.75 및 3.75)에서 300의 표본 크기가 정규 분포를 따르는 표본 평균을 생성하지 않음을 발견했습니다.
불행히도, 이것이 정확히 당신이 찾고있는 것이라고 생각하지는 않지만, 나는 그것을 우연히 발견하고 흥미 롭습니다.