부트 스트랩 리샘플링을 사용하여 데이터 세트의 변동에 대한 신뢰 구간을 계산할 수 있습니까?
다른 많은 통계와 마찬가지로 그렇습니다.
데이터 세트에서 여러 번 다시 샘플링하고 매번 평균을 계산하면 이러한 평균이 정규 분포를 따릅니다 (CLT 기준).
부트 스트랩 평균을 부트 스트랩하는 경우 부트 스트랩 수단이 CLT가 적용되는 분배의 경우에도 정규 분포를 따르는 경우가 항상 아닙니다.
다음은 샘플 크기에 대한 평균을 다시 샘플링 한 예입니다. n = 100, 내가 10000 번 리샘플링 한 곳 :
원격으로 정상이 아닙니다.
원래 샘플은 91 개의 '0'값과 '1', '2'및 '100'으로 구성됩니다.
위의 플롯을 생성하기 위해 실행 한 (R) 코드는 다음과 같습니다.
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
문제는이 경우 표본 크기 (100)가 CLT가 이러한 종류의 분포 형태로 적용하기에 너무 작다는 것입니다. 리샘플링 횟수는 중요하지 않습니다.
그러나, 원래의 표본 크기가 훨씬 더 크면 이와 같은 것을위한 표본 평균의 재 샘플링 분포는보다 일반적으로 보입니다 (항상 이산적임).
위의 데이터를 리샘플링 할 때 (흑백) 동일한 비율이지만 10 배 많은 값 (빨간색, 즉 n = 1000)의 값에 대한 ecdf는 다음과 같습니다.
보시다시피, 큰 샘플을 리샘플링 할 때 분포 함수가 훨씬 더 정상적인 것처럼 보입니다.
데이터 세트에서 여러 번 다시 샘플링하고 매번 분산을 계산하는 경우 이러한 분산이 특정 분포를 따릅니다
아니요, 같은 이유로 반드시 그런 것은 아닙니다.
그러나 CLT는 분산 *에도 적용됩니다. 단지 CLT가 단순히 많은 재 샘플링을 수행하여 부트 스트랩 리샘플링에 적용한다고 주장 할 수는 없습니다. 경우] 원래 샘플 크기가 충분히 큰 경우 (존재하는 경우, 높은 모멘트), 그 경향이 (적절한 조건 하에서)에 비교적 가까운 작은 샘플 분포에 대하여 정규 분포 (수단의 리샘플링 분포를 만들 수있다 가장 작은).
* CLT는 일반적으로 분산에 적용됩니다 (적절한 순간이 있다고 가정)는 고려할 때 직관적입니다. 에스2엔=1엔∑엔나는 = 1(엑스나는−엑스¯)2. 허락하다와이나는= (엑스나는−엑스¯)2; 그때에스2엔=와이¯따라서 CLT가 와이-변수, 적용 가능 에스2엔. 지금에스2n - 1 단지 확장 버전입니다 에스2엔; CLT가에스2엔 그것은 적용됩니다 에스2n - 1. 그러나 이러한 논증의 개요는 완전하지는 않지만 처음에는 예상치 못한 예외가 있습니다.