중앙 한계 정리에 큰 표본 크기가 필요한 분포의 예


19

일부 책은 중앙 한계 정리가 대한 근사치를 제공하기 위해 크기가 30 이상인 표본 크기가 필요하다고 명시합니다 . 엑스¯

이것이 모든 배포에 충분하지 않다는 것을 알고 있습니다.

큰 표본 크기 (아마도 100 또는 1000 이상)에서도 표본 평균의 분포가 여전히 치우친 분포의 일부 예를보고 싶습니다.

나는 이전에 그러한 예를 보았지만 어디에서 찾을 수 없으며 기억할 수 없습니다.


5
모양 매개 변수가 감마 분포를 고려하십시오 . 스케일을 1로 설정하십시오 (상관 없음). 하자 당신이 생각 말하는 와 같은 단지 "충분히 정상". 그런 다음 1000 개의 관측치가 충분히 분포 에는 분포가 있습니다. α감마(α0,1)감마(α0/1000,1)
Glen_b-복지 주 모니카

1
@ Glen_b, 공식 답변을 만들고 조금 개발해보십시오.
gung-Monica Monica 복원

4
충분히 오염 된 분포는 @Glen_b의 예와 같은 라인을 따라 작동합니다. 예를 들어 , 기본 분포가 정규 (0,1)와 정규 (거대한 값, 1)의 혼합 인 경우 후자는 나타날 확률이 매우 적으며 흥미로운 일이 발생합니다. (1) 대부분의 시간 , 오염이 나타나지 않으며 왜도의 증거가 없습니다. 그러나 (2) 때때로 오염이 나타나고 샘플의 왜도는 엄청납니다. 표본 평균의 분포는 상관없이 크게 왜곡되지만 부트 스트래핑 ( :) 은 일반적으로이를 감지하지 않습니다.
whuber

1
@whuber의 예는 이론적으로 중심 한계 정리가 임의로 오도 될 수 있음을 보여줍니다. 실제 실험에서는 매우 드물게 발생하는 큰 영향이 있는지 여부를 스스로에게 물어보고 이론적 인 결과를 약간의주의를 기울여 적용해야한다고 생각합니다.
David Epstein

답변:


19

일부 책은 중앙 한계 정리가 대한 근사치를 제공하기 위해 크기가 30 이상인 표본 크기가 필요하다고 명시합니다 .엑스¯

이 일반적인 경험 법칙은 거의 완전히 쓸모가 없습니다. n = 2가되는 비정규 분포와 훨씬 더 큰 이 불충분 한 비정규 분포 가 있으므로 상황에 대한 명시적인 제한없이 규칙이 오도됩니다. 어쨌든, 그것이 사실이더라도, 필요한 은 당신이하고있는 것에 따라 달라질 것입니다. 종종 작은 의 분포 중심 근처에서 좋은 근사값을 얻지 만 꼬리에서 적절한 근사값을 얻으려면 훨씬 큰 이 필요 합니다.

편집 : 문제에 대한 수많은 만장일치 만장일치 의견과 좋은 링크에 대해서는 질문에 대한 답변을 참조하십시오 . 나는 당신이 이미 그것을 분명히 이해했기 때문에 요점을 풀지 않을 것입니다.

표본 크기가 크거나 (100 또는 1000 이상일 수 있음) 표본 평균의 분포가 여전히 상당히 왜곡 된 분포의 몇 가지 예를보고 싶습니다.

예제는 구성하기가 비교적 쉽습니다. 쉬운 방법 중 하나 는 비정규 분포를 무한정으로 나누고 나누는 것입니다. 평균을 구하거나 요약 할 때 법선에 접근 할 수있는 법칙이 있다면 '법선에 가까움'의 경계에서 시작하여 원하는만큼 나누십시오. 예를 들어 :

모양 모수가 감마 분포를 고려하십시오 . 스케일을 1로 설정하십시오 (스케일은 중요하지 않음). 을 "충분히 정상"으로 간주한다고 가정 해 보겠습니다 . 그런 다음 관측치가 1000이되도록 정규 분포를 분포 에는 분포가 있습니다.α감마(α0,1)감마(α0/1000,1)

따라서 감마가 '정상적으로 충분' 하다고 생각되면 -α=20

감마 (20) pdf

그런 다음 을 1000으로 나누면 .α=20α=0.02

감마 (0.02) pdf

이들 중 평균 1000 개는 첫 번째 pdf의 모양을 갖습니다 (단, 스케일은 아님).

Cauchy와 같이 정규에 접근하지 않는 무한 분할 가능한 분포를 대신 선택하면 표본 평균이 대략 정규 분포를 갖는 표본 크기가 없을 수 있습니다 (또는 경우에 따라 정규성에 접근 할 수는 있지만 당신은 필요가 없습니다 ) 표준 오류에 대한 효과를.σ/

오염 된 분포에 관한 @whuber의 요점은 매우 좋은 것입니다. 이 경우 시뮬레이션을 시도하고 많은 샘플에서 사물이 어떻게 작동하는지 확인하는 것이 좋습니다.


12

σσχ2=30. 간단히 말해서, 비정규 성은 보다 더 엉망 입니다.에스2엑스¯


2
에스2

9

이 문서가 도움이되거나 최소한 흥미로울 수 있습니다.

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

UMass의 연구원들은 실제로 당신이 요구하는 것과 비슷한 연구를 수행했습니다. CLT로 인해 특정 분포 데이터가 정규 분포를 따르는 표본 크기는 무엇입니까? 심리학 실험을 위해 수집 된 많은 데이터가 정규 분포 근처에있는 것은 아니기 때문에 징계는 통계에 대한 추론을 수행하기 위해 CLT에 크게 의존합니다.

α=0.05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

이상하게도 정규 분포 데이터의 65 %가 표본 크기 20으로 거부되었으며 표본 크기가 30 인 경우에도 35 %는 여전히 거부되었습니다.

그런 다음 Fleishman의 전력 방법을 사용하여 생성 된 몇 가지 치우친 분포를 테스트했습니다.

와이=엑스+엑스2+엑스+엑스4

X는 정규 분포에서 얻은 값을 나타내며 a, b, c 및 d는 상수입니다 (a = -c).

그들은 최대 300 개의 샘플 크기로 테스트를 실행했습니다.

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

그들은 최고 수준의 스큐 및 커트 (1.75 및 3.75)에서 300의 표본 크기가 정규 분포를 따르는 표본 평균을 생성하지 않음을 발견했습니다.

불행히도, 이것이 정확히 당신이 찾고있는 것이라고 생각하지는 않지만, 나는 그것을 우연히 발견하고 흥미 롭습니다.


4
" 이상하게도 정규 분포 데이터의 65 %가 표본 크기 20으로 거부되었고, 표본 크기 30으로도 35 %가 여전히 기각되었습니다. "-테스트를 ​​잘못 사용하고있는 것 같습니다. 완전히 지정된 정규 데이터 (테스트의 목적)에 대한 정규성 테스트로서 올바르게 사용하는 경우 정확해야합니다 .
Glen_b-복지 주 모니카

5
@Glen_b : 여기에는 여러 가지 잠재적 인 오류가 있습니다. 문서를 읽으면 여기에 "정상"으로 표시되는 것은 실제로 평균 랜덤 변동이 평균 50이고 표준 편차가 10 인 가장 가까운 정수로 반올림 됨을 알 있습니다. 따라서 그런 의미에서 사용 된 테스트는 이미 잘못 지정된 분포를 사용하고 있습니다. 둘째, 복제 시도에서 20 개의 관측 값을 사용한 표본 평균의 경우 기각 확률은 약 27 % 인 것으로 나타 났으 므로 여전히 테스트를 잘못 수행 한 것으로 보입니다. (계속)
추기경

5
셋째, 위와 상관없이 일부 소프트웨어는 실제 분포가 아닌 점근 분포를 사용할 수 있지만 10K의 표본 크기에서는 데이터에 인위적으로 유도되지 않은 경우 너무 중요하지 않습니다. 마지막으로, 우리는 그 문서의 끝 부분에서 다음과 같은 다소 이상한 진술을 발견합니다. 불행히도, S-PLUS의 KS- 테스트 속성은 작업을 제한합니다. 본 연구의 p- 값은 모두 다중 복제를 통해 수작업으로 편집되었다. p- 값을 계산하고 선택된 알파 수준과 비교하여 p- 값을 판단하는 프로그램이 필요합니다.
추기경

3
안녕하세요 @Glen_b. 반올림이 반올림 데이터를 사용하여 실제 표준 정규 분포 에 대해 테스트하고 있다고 생각하기 때문에 반올림이 여기에서 거부율을 감소시킬 것이라고 생각하지 않습니다 . (대신 이산 분포에서 KS 테스트를 사용하려고 생각했을 수도 있습니다.) KS 테스트의 표본 크기는 20이 아니라 10000입니다. 그들은 테이블을 얻기 위해 각각 샘플 크기 10000에서 20 번의 복제를 수행했습니다. 적어도 그것은 문서를 감추는 것의 설명에 대한 나의 이해였습니다.
추기경

3
@ cardinal-물론 정확합니다. 아마도 그것이 큰 샘플 크기에서 상당한 거부의 원인이 될 수 있습니다. Re : " KS 테스트의 샘플 크기는 20이 아니라 10000 "입니다. ... 좋아, 이것은 점점 이상하게 들립니다. 그들이 왜 그 두 가지 조건이 다른 방향으로 말하기보다 많은 가치가 있다고 생각하는지 궁금해합니다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.