샘플을 부트 스트랩 할 때 센터링이 필요합니까?


13

표본 평균의 분포를 근사하는 방법에 대해 읽을 때 비모수 적 부트 스트랩 방법을 사용했습니다. 분명히 의 분포에 의해 의 분포를 근사 할 수 있습니다 . 여기서 는 표본 평균을 나타냅니다. 부트 스트랩 샘플. ˉ Xn ˉ X n ˉ XnX¯nμX¯nX¯nX¯n

내 질문은 : 센터링이 필요합니까? 무엇 때문에?

하지 난 단지 대략 수 에 의해 ? P ( ˉ Xnx )P(X¯nx)P(X¯nx)


왜 우리가 무엇을 중심에 두어야하는지 모르겠습니다. 여기에 논의 된 모든 샘플의 크기가 똑같습니까?
Bitwise

같은 크기입니다. 센터링의 이유도 보이지 않습니다. 우리가 왜 또는 왜 그렇게하지 않아도되는 수학적 설명을 할 수있는 사람이 있습니까? 우리가 부트 스트랩이 작동하거나 중앙에 있지 않으면 작동하지 않음을 증명할 수 있습니까?
Christin

3
(Btw, 부트 스트랩이 우리가 중심에 놓인 경우에 효과적이라는 증거는 Bickel, PJ 및 DA Freedman (1981), 부트 스트랩에 대한 일부 점근 론 에서 찾을 수 있습니다 .)
Christin

궁금합니다. 왜이 질문이 다운 토트됩니까?
추기경

가 와 동일한 분포로 수렴 되는 중앙 한계 정리를 사용할 수 있도록 입력 할 수 있습니다. , 즉 입니다. 센터링이 없으면 케이스가 작동하는지 알려주는 무증상이 없을 수도 있습니다. n1n12(X¯nμ)N(0,σ2)n12(X¯nX¯n)N(0,σ2)
kelu

답변:


4

예, 를 근사 할 있지만 최적이 아닙니다. 이것은 백분위 수 부트 스트랩의 한 형태입니다. 그러나 표본 크기가 크지 않은 경우 모집단 평균에 대해 추론하려는 경우 백분위 수 부트 스트랩이 제대로 수행되지 않습니다. (샘플 크기가 작은 경우를 포함하여 다른 많은 추론 문제와 잘 작동합니다.) 저는이 결론을 Wilcox의 사회 및 행동 과학에 대한 현대 통계 , CRC Press, 2012 에서 가져옵니다 . 이론적 증거는 저 너머에 있습니다. . P ( ˉ Xnx )P(X¯nx)P(X¯nx)

중심 접근 방식의 변형은 다음 단계로 진행하여 재 샘플 표준 편차 및 표본 크기를 사용하여 중심 부트 스트랩 통계량을 조정하여 통계와 동일한 방식으로 계산합니다. 이 t 통계량 분포의 Quantile을 사용하여 신뢰 구간을 구성하거나 가설 검정을 수행 할 수 있습니다. 이것은 bootstrap-t 방법이며 평균에 대한 추론을 할 때 탁월한 결과를 제공합니다.

하자 부트 스트랩 재 샘플에 기초하여 상기 재 샘플 표준 편차 될 분모로서 N-1을 사용함; 그리고 원본 샘플의 표준 편차입니다. 허락하다s

T=X¯nX¯s/n

의 시뮬레이트 된 분포의 97.5 번째 및 2.5 번째 백분위 수는 다음과 같이 에 대한 신뢰 구간을 만들 수 있습니다 . μTμ

X¯T0.975sn,X¯T0.025sn

아래의 시뮬레이션 결과를 살펴보면, 부정확 한 혼합 분포의 경우이 방법의 신뢰 구간에 백분위 수 부트 스트랩 방법 또는 부트 스트랩이없는 통계의 전통적인 반전보다 실제 값이 더 자주 포함됨을 보여줍니다.

compare.boots <- function(samp, reps = 599){
    # "samp" is the actual original observed sample
    # "s" is a re-sample for bootstrap purposes

    n <- length(samp)

    boot.t <- numeric(reps)
    boot.p <- numeric(reps)

    for(i in 1:reps){
        s <- sample(samp, replace=TRUE)
        boot.t[i] <- (mean(s)-mean(samp)) / (sd(s)/sqrt(n))
        boot.p[i] <- mean(s)
    }

    conf.t <- mean(samp)-quantile(boot.t, probs=c(0.975,0.025))*sd(samp)/sqrt(n)
    conf.p <- quantile(boot.p, probs=c(0.025, 0.975))

    return(rbind(conf.t, conf.p, "Trad T test"=t.test(samp)$conf.int))
}

# Tests below will be for case where sample size is 15
n <- 15

# Create a population that is normally distributed
set.seed(123)
pop <- rnorm(1000,10,1)
my.sample <- sample(pop,n)
# All three methods have similar results when normally distributed
compare.boots(my.sample)

이것은 다음을 제공합니다 (conf.t는 부트 스트랩 t 방법이고 conf.p는 백분위 수 부트 스트랩 방법입니다).

          97.5%     2.5%
conf.t      9.648824 10.98006
conf.p      9.808311 10.95964
Trad T test 9.681865 11.01644

기울어 진 분포의 단일 예를 들면 다음과 같습니다.

# create a population that is a mixture of two normal and one gamma distribution
set.seed(123)
pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
my.sample <- sample(pop,n)
mean(pop)
compare.boots(my.sample)

이것은 다음을 제공합니다. 부트 스트랩 t 버전 인 "conf.t"는 다른 것보다 더 넓은 신뢰 구간을 제공합니다. 기본적으로 인구의 비정상적인 분포에 반응하는 것이 좋습니다.

> mean(pop)
[1] 13.02341
> compare.boots(my.sample)
                97.5%     2.5%
conf.t      10.432285 29.54331
conf.p       9.813542 19.67761
Trad T test  8.312949 20.24093

마지막으로 어떤 버전이 가장 정확한 신뢰 구간을 제공하는지 확인하기위한 수천 개의 시뮬레이션이 있습니다.

# simulation study
set.seed(123)
sims <- 1000
results <- matrix(FALSE, sims,3)
colnames(results) <- c("Bootstrap T", "Bootstrap percentile", "Trad T test")

for(i in 1:sims){
    pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
    my.sample <- sample(pop,n)
    mu <- mean(pop)
    x <- compare.boots(my.sample)
    for(j in 1:3){
        results[i,j] <- x[j,1] < mu & x[j,2] > mu
    }
}

apply(results,2,sum)

이는 아래 결과를 제공합니다. 숫자는 신뢰 구간에 모의 모집단의 실제 값이 포함 된 1,000 개 중 시간입니다. 모든 버전의 실제 성공률은 95 % 미만입니다.

     Bootstrap T Bootstrap percentile          Trad T test 
             901                  854                  890 

매우 유익한 정보였습니다. 이 .pdf (강의에서)는 결론에 대한 경고를 설명합니다 : psychology.mcmaster.ca/bennett/boot09/percentileT.pdf 이것은 Bennet의 말을 요약 한 것입니다. CI의 경우 음수 값을 포함해서는 안됩니다. bootstrap-t 방법을 사용하면 신뢰 구간이 불가능 해집니다. 데이터가> = 0이어야한다는 요건은 정규 분포 가정을 위반하는 것입니다. 백분위 수 부트 스트랩 CI를 구성 할 때 이것은 문제가되지 않습니다
Hannes Ziegler
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.