일반적으로 분포의 기능인 관심 수량이 합리적으로 매끄럽고 데이터가 iid 인 경우 일반적으로 매우 안전한 영역에있게됩니다. 물론 부트 스트랩이 작동하는 다른 상황도 있습니다.
부트 스트랩이 "실패"한다는 의미
일반적으로 부트 스트랩의 목적은 관심 통계량에 대한 대략적인 샘플링 분포를 구성하는 것입니다. 매개 변수의 실제 추정에 관한 것이 아닙니다. 따라서 관심있는 통계 (일부 크기 조정 및 중심 조정)가 및 부트 스트랩 배포는 다음과 같습니다. 분포로 수렴합니다 . 우리가 이것을 가지고 있지 않다면, 우리는 추론을 믿을 수 없습니다.X^nX^n→X∞X∞
부트 스트랩이 실패 할 수있는 경우 의 일반적인 예는 iid 프레임 워크에서도 극단적 인 순서 통계의 샘플링 분포를 근사화하는 경우입니다. 아래는 간단한 토론입니다.
분포 에서 무작위 표본의 최대 주문 통계U[0,θ]
하자 에 IID 균일 한 확률 변수의 순서 수 . 하자 . 의 분포 는
(매우 간단한 인수이 실제로 해당 도시 유의 확률, 심지어, 거의 확실하게 , 랜덤 변수가 동일한 공간에 정의 된 경우).X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
기본 계산으로
즉 은 평균 지수 랜덤 변수로 분포에 수렴 합니다.
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
이제 를 대체 하고 분포를 사용하여 을 리샘플링 하여 분포의 (순진한) 부트 스트랩 추정치를 구성합니다. 의 조건으로 .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
그러나, 관찰이 함께 확률 , 따라서 부트 스트랩 분포는 0 점 질량 갖는다 하더라도 점근 불구 실제 제한 분포가 연속적이라는 사실.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
보다 명확하게, 실제 제한 분포는 평균 지수 적이지만, 제한 부트 스트랩 분포 는 실제 값과 관계없이 크기의 0에 점 질량 을 배치합니다 . 취하여 충분히 대형, 우리는 어떤 일정 구간 동안 작은 임의의 분포 제한 진정한 가능성을 만들 수있다 아직 부트 스트랩 것 ( 여전히 이 구간에서 적어도 확률 0.632이 있음!) 보고서! 이것으로부터 부트 스트랩 이이 설정에서 임의로 잘못 작동 할 수 있음을 분명히해야 합니다.θ1−e−1≈0.632 θθ[0,ε)
요약하면,이 경우 부트 스트랩이 실패합니다 (비참하게). 매개 변수 공간의 가장자리에서 매개 변수를 처리 할 때 문제가 발생하는 경향이 있습니다.
정규 확률 변수 샘플의 예
놀랍도록 간단한 상황에서 부트 스트랩 실패에 대한 다른 유사한 예가 있습니다.
샘플 고려 에서 에 대한 파라미터 공간 여기서 제한된다 . 이 경우 MLE는 입니다. 다시 부트 스트랩 추정값 합니다. 다시, (관측 된 샘플에 따라)가 .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
교환 가능한 어레이
아마도 가장 극적인 예 중 하나는 교환 가능한 어레이입니다. 하자 확률 변수의 배열 예를 들어, 그 모든 순열 쌍 행렬 및 상기 어레이 와 동일한 공동 분포를 갖는다. 즉, 의 행과 열을 바꾸면 분포가 변하지 않습니다. (모델이 훨씬 일반적이지만 셀당 하나의 관측치가있는 양방향 랜덤 효과 모델을 생각해 볼 수 있습니다.)Y=(Yij)PQYPYQY
평균 대한 신뢰 구간을 추정하려고한다고 가정합니다 (위의 모든 수단의 교환 가능성 가정으로 인해 세포는 같아야합니다).μ=E(Yij)=E(Y11)
McCullagh (2000)는 그러한 배열을 부트 스트래핑하는 두 가지 다른 자연 (즉, 순진한) 방법을 고려했다. 둘 다 표본 평균에 대한 점근 적 분산을 얻지 못합니다. 그는 또한 단방향 교환 가능한 배열과 선형 회귀의 일부 예를 고려합니다.
참고 문헌
불행히도, 주제는 사소한 것이 아니므로, 특히 쉬운 것은 아닙니다.
P. Bickel과 D. Freedman, 부트 스트랩에 대한 점근 론 . 앤 통계 , vol. 아뇨. 6 (1981), 1196–1217.
DWK Andrews, 매개 변수가 매개 변수 공간의 경계에있을 때 부트 스트랩의 불일치 , Econometrica , vol. 68 호 2 (2000), 399–405.
P. McCullagh, 리샘플링 및 교체 가능한 어레이 , Bernoulli , vol. 6 번 2 (2000), 285–301.
EL Lehmann 및 JP Romano, 통계적 가설 테스트 , 3 차. ed., Springer (2005). [15 장 : 일반적인 큰 샘플 방법]