중앙 한계 정리가 단일 표본으로 작동하는 이유는 무엇입니까?


12

저는 샘플을 반복 할 때 CLT가 작동한다는 것을 항상 배웠습니다. 각 샘플은 충분히 큽니다. 예를 들어, 내가 1,000,000 시민의 나라를 가지고 있다고 상상해보십시오. CLT에 대한 나의 이해는 신장 분포가 정상이 아니더라도 50 명의 표본 1000 개를 채취 한 경우 (즉, 각각 50 명의 시민을 대상으로 한 1000 번의 조사를 실시한 경우) 각 표본에 대한 평균 신장,이 표본의 분포를 계산했다는 것입니다 의미는 정상입니다.

그러나 나는 연구원들이 반복적 인 샘플을 취하는 실제 사례를 본 적이 없다. 대신, 그들은 하나의 큰 표본을 취하여 (즉, 키에 대해 50,000 명의 시민을 조사) 그로부터 일합니다.

통계 책이 반복 샘플링을 가르치는 이유는 무엇입니까? 실제 연구자들은 단일 샘플 만 수행합니까?

편집 : 내가 생각하는 실제 사례는 50,000 명의 트위터 사용자 데이터 세트에 대한 통계를 수행하는 것입니다. 이 데이터 세트는 분명히 반복되는 샘플이 아니라 50,000의 큰 샘플 중 하나 일뿐입니다.


50,000에서 1000의 샘플을 채취하는 것은 50,000에서 독립적으로 1000 개의 단일 샘플을 채취하는 것과 거의 같습니다. 표본이 작을수록 (또는 우주가 클수록) 더 비슷하게 보입니다.
Thomas Ahle

답변:


14

CLT (다양한 형태의 일부에 이상은)과 한계라고 우리에게 이야기 하나의 표준화 된 시료의 분산 평균 ( 엑스¯μσ/

=50=50,000

엑스¯

엄밀히 말하면 이것이 CLT를 보여주지는 않지만, 베리-에센 정리를 시연하는 것에 더 가깝습니다. 왜냐하면 그것은 정규성에 대한 접근이 오는 속도에 대해 무언가를 보여주기 때문입니다. 그러나 그것은 결국 우리를 CLT로 이끌 것입니다. 동기 부여로 충분한 역할을합니다 (실제로 베리-에센 (Berry-Esseen)과 같은 것들은 사람들이 어쨌든 유한 샘플에서 실제로 사용하고자하는 것에 더 가깝기 때문에 동기 부여가 어떤면에서는 중심 제한 정리 자체보다 실제로 유용 할 수 있습니다) .

이 표본 평균의 분포는 정상입니다.

음, 아니, 그들이 비 정상적인 것입니다하지만 그들은 실제로 매우 가까운 정상으로 될 것이다 (높이가 다소 왜곡되지 않지만 매우 스큐).

=50

내가 생각하는 실제 사례는 50,000 명의 트위터 사용자 데이터 세트에 대한 통계를 수행하는 것입니다. 이 데이터 세트는 분명히 반복되는 샘플이 아니라 50,000의 큰 샘플 중 하나 일뿐입니다.

많은 분포에서 표본 평균 50,000 개 항목은 정규 분포에 매우 가깝지만 n = 50,000 일지라도 정규 분포에 매우 가깝다는 보장은 없습니다 (개별 항목의 분포가 충분할 경우) 예를 들어, 표본 평균의 분포는 여전히 정규 근사값을 유지할 수 없을 정도로 왜곡 될 수 있습니다.

( Berry-Esseen 정리 는 우리가 정확히 그 문제가 발생할 수 있음을 예상하도록 이끌 것입니다. 그리고 명백히 그럴 것입니다. 표준화 된 샘플은 정상에 가깝다는 의미입니다.)


50,000이 충분히 큰지 확인하기 위해 R에서 시뮬레이션을 수행 할 수 있습니다 (예 : 맞습니까?). 표본의 평균 및 표준 편차를 사용하지만 표본의 동일한 분포에서 어떻게 시뮬레이트합니까?
Amonet

엄밀히 말하면 모집단 분포를 시뮬레이션해야합니다. 당신은 (이 부트 스트랩에 가깝다) 인구 분포의 추정으로 샘플의 분포를 치료 -하지만이 같은 목적에 적합하지 않습니다. 예를 들어, Cauchy 분포에서 표본을 추출한 다음이를 대체하여 표본 추출을 고려하십시오. (더 큰 샘플의 경우), 재 샘플링 된 수단의 분포가 "충분히 정상"으로 나타날 때까지. 당신은 것입니다 항상 약간의 유한 표본 크기가 충분하다고 결론하지만 진리는 없을 것 않았다.
Glen_b-복지국 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.