부트 스트랩 리샘플링을 사용하여 데이터 집합의 분산에 대한 신뢰 구간을 계산할 수 있습니까?


9

데이터 세트에서 여러 번 다시 샘플링하고 매번 평균을 계산하면 이러한 평균이 정규 분포를 따릅니다 (CLT 기준). 따라서 데이터 세트의 확률 분포에 대한 가정없이 데이터 세트의 평균에 대한 신뢰 구간을 계산할 수 있습니다.

분산과 비슷한 것을 할 수 있는지 궁금합니다. 즉, 데이터 세트에서 여러 번 리샘플링하고 매번 분산을 계산할 경우 이러한 분산은 데이터 분포의 원래 확률 분포에 관계없이 특정 분포를 따릅니 까?

원래 데이터 세트가 정상이면 분산이 카이 제곱 분포를 따릅니다. 그러나 그것이 정상이 아닌 경우는 어떻습니까?

답변:


10

부트 스트랩 리샘플링을 사용하여 데이터 세트의 변동에 대한 신뢰 구간을 계산할 수 있습니까?

다른 많은 통계와 마찬가지로 그렇습니다.

데이터 세트에서 여러 번 다시 샘플링하고 매번 평균을 계산하면 이러한 평균이 정규 분포를 따릅니다 (CLT 기준).

부트 스트랩 평균을 부트 스트랩하는 경우 부트 스트랩 수단이 CLT가 적용되는 분배의 경우에도 정규 분포를 따르는 경우가 항상 아닙니다.

다음은 샘플 크기에 대한 평균을 다시 샘플링 한 예입니다. =100, 내가 10000 번 리샘플링 한 곳 :

여기에 이미지 설명을 입력하십시오

원격으로 정상이 아닙니다.

원래 샘플은 91 개의 '0'값과 '1', '2'및 '100'으로 구성됩니다.

위의 플롯을 생성하기 위해 실행 한 (R) 코드는 다음과 같습니다.

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

문제는이 경우 표본 크기 (100)가 CLT가 이러한 종류의 분포 형태로 적용하기에 너무 작다는 것입니다. 리샘플링 횟수는 중요하지 않습니다.

그러나, 원래의 표본 크기가 훨씬 더 크면 이와 같은 것을위한 표본 평균의 재 샘플링 분포는보다 일반적으로 보입니다 (항상 이산적임).

위의 데이터를 리샘플링 할 때 (흑백) 동일한 비율이지만 10 배 많은 값 (빨간색, 즉 n = 1000)의 값에 대한 ecdf는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

보시다시피, 큰 샘플을 리샘플링 할 때 분포 함수가 훨씬 더 정상적인 것처럼 보입니다.

데이터 세트에서 여러 번 다시 샘플링하고 매번 분산을 계산하는 경우 이러한 분산이 특정 분포를 따릅니다

아니요, 같은 이유로 반드시 그런 것은 아닙니다.

그러나 CLT는 분산 *에도 적용됩니다. 단지 CLT가 단순히 많은 재 샘플링을 수행하여 부트 스트랩 리샘플링에 적용한다고 주장 할 수는 없습니다. 경우] 원래 샘플 크기가 충분히 큰 경우 (존재하는 경우, 높은 모멘트), 그 경향이 (적절한 조건 하에서)에 비교적 가까운 작은 샘플 분포에 대하여 정규 분포 (수단의 리샘플링 분포를 만들 수있다 가장 작은).

* CLT는 일반적으로 분산에 적용됩니다 (적절한 순간이 있다고 가정)는 고려할 때 직관적입니다. 에스2=1나는=1(엑스나는엑스¯)2. 허락하다와이나는=(엑스나는엑스¯)2; 그때에스2=와이¯따라서 CLT가 와이-변수, 적용 가능 에스2. 지금에스12 단지 확장 버전입니다 에스2; CLT가에스2 그것은 적용됩니다 에스12. 그러나 이러한 논증의 개요는 완전하지는 않지만 처음에는 예상치 못한 예외가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.