"순진한 부트 스트랩"이 실패하는 예는 무엇입니까?


86

알 수 없거나 복잡한 분포의 표본 데이터 집합이 있고 데이터의 통계적 에 대해 약간의 추론을 수행하려고한다고 가정 합니다. 내 기본 성향은 교체와 부트 스트랩 샘플의 무리를 생성하고, 내 통계 계산하는 것입니다 위한 추정 분포를 생성하기 위해 각각의 부트 스트랩 샘플 .TTT

이것이 나쁜 생각의 예는 무엇입니까?

예를 들어,이 부트 스트랩을 순진하게 수행하지 못하는 경우는 시계열 데이터에 부트 스트랩을 사용하려고하는 경우입니다 (예 : 중요한 자기 상관 관계가 있는지 테스트하기 위해). 위에서 설명한 순진한 부트 스트랩 ( 원래 시리즈에서 교체하여 샘플링하여 n 번째 부트 스트랩 샘플 시리즈 의 번째 데이터 포인트 생성 )은 원래 시계열의 구조를 무시하기 때문에 잘못 권장됩니다. 블록 부트 스트랩과 같은 더 멋진 부트 스트랩 기술을 얻으십시오.i

달리 말하면, "대체 표본 추출"외에 부트 스트랩에는 무엇이 있습니까?


iid 데이터의 평균을 추론하려는 경우 부트 스트랩은 훌륭한 도구입니다. 다른 모든 것은 의심스럽고 약한 수렴에 대한 사례 별 증거가 필요합니다.
StasK

답변:


67

일반적으로 분포의 기능인 관심 수량이 합리적으로 매끄럽고 데이터가 iid 인 경우 일반적으로 매우 안전한 영역에있게됩니다. 물론 부트 스트랩이 작동하는 다른 상황도 있습니다.

부트 스트랩이 "실패"한다는 의미

일반적으로 부트 스트랩의 목적은 관심 통계량에 대한 대략적인 샘플링 분포를 구성하는 것입니다. 매개 변수의 실제 추정에 관한 것이 아닙니다. 따라서 관심있는 통계 (일부 크기 조정 및 중심 조정)가 및 부트 스트랩 배포는 다음과 같습니다. 분포로 수렴합니다 . 우리가 이것을 가지고 있지 않다면, 우리는 추론을 믿을 수 없습니다.X^nX^nXX

부트 스트랩이 실패 할 수있는 경우 의 일반적인 예는 iid 프레임 워크에서도 극단적 인 순서 통계의 샘플링 분포를 근사화하는 경우입니다. 아래는 간단한 토론입니다.

분포 에서 무작위 표본의 최대 주문 통계U[0,θ]

하자 에 IID 균일 한 확률 변수의 순서 수 . 하자 . 의 분포 는 (매우 간단한 인수이 실제로 해당 도시 유의 확률, 심지어, 거의 확실하게 , 랜덤 변수가 동일한 공간에 정의 된 경우).X1,X2,[0,θ]X(n)=max1knXkX(n)

P(X(n)x)=(x/θ)n.
X(n)θ

기본 계산으로 즉 은 평균 지수 랜덤 변수로 분포에 수렴 합니다.

P(n(θX(n))x)=1(1xθn)n1ex/θ,
n(θX(n))θ

이제 를 대체 하고 분포를 사용하여 을 리샘플링 하여 분포의 (순진한) 부트 스트랩 추정치를 구성합니다. 의 조건으로 .n(θX(n))X1,,XnX1,,Xnn(X(n)X(n))X1,,Xn

그러나, 관찰이 함께 확률 , 따라서 부트 스트랩 분포는 0 점 질량 갖는다 하더라도 점근 불구 실제 제한 분포가 연속적이라는 사실.X(n)=X(n)1(11/n)n1e1

보다 명확하게, 실제 제한 분포는 평균 지수 적이지만, 제한 부트 스트랩 분포 는 실제 값과 관계없이 크기의 0에 점 질량 을 배치합니다 . 취하여 충분히 대형, 우리는 어떤 일정 구간 동안 작은 임의의 분포 제한 진정한 가능성을 만들 수있다 아직 부트 스트랩 것 ( 여전히 이 구간에서 적어도 확률 0.632이 있음!) 보고서! 이것으로부터 부트 스트랩 이이 설정에서 임의로 잘못 작동 할 수 있음을 분명히해야 합니다.θ1e10.632 θθ[0,ε)

요약하면,이 경우 부트 스트랩이 실패합니다 (비참하게). 매개 변수 공간의 가장자리에서 매개 변수를 처리 할 때 문제가 발생하는 경향이 있습니다.

정규 확률 변수 샘플의 예

놀랍도록 간단한 상황에서 부트 스트랩 실패에 대한 다른 유사한 예가 있습니다.

샘플 고려 에서 에 대한 파라미터 공간 여기서 제한된다 . 이 경우 MLE는 입니다. 다시 부트 스트랩 추정값 합니다. 다시, (관측 된 샘플에 따라)가 .X1,X2,N(μ,1)μ[0,)X^n=max(X¯,0)X^n=max(X¯,0)n(X^nX^n)n(X^nμ)

교환 가능한 어레이

아마도 가장 극적인 예 중 하나는 교환 가능한 어레이입니다. 하자 확률 변수의 배열 예를 들어, 그 모든 순열 쌍 행렬 및 상기 어레이 와 동일한 공동 분포를 갖는다. 즉, 의 행과 열을 바꾸면 분포가 변하지 않습니다. (모델이 훨씬 일반적이지만 셀당 하나의 관측치가있는 양방향 랜덤 효과 모델을 생각해 볼 수 있습니다.)Y=(Yij)PQYPYQY

평균 대한 신뢰 구간을 추정하려고한다고 가정합니다 (위의 모든 수단의 교환 가능성 가정으로 인해 세포는 같아야합니다).μ=E(Yij)=E(Y11)

McCullagh (2000)는 그러한 배열을 부트 스트래핑하는 두 가지 다른 자연 (즉, 순진한) 방법을 고려했다. 둘 다 표본 평균에 대한 점근 적 분산을 얻지 못합니다. 그는 또한 단방향 교환 가능한 배열과 선형 회귀의 일부 예를 고려합니다.

참고 문헌

불행히도, 주제는 사소한 것이 아니므로, 특히 쉬운 것은 아닙니다.

P. Bickel과 D. Freedman, 부트 스트랩에 대한 점근 론 . 앤 통계 , vol. 아뇨. 6 (1981), 1196–1217.

DWK Andrews, 매개 변수가 매개 변수 공간의 경계에있을 때 부트 스트랩의 불일치 , Econometrica , vol. 68 호 2 (2000), 399–405.

P. McCullagh, 리샘플링 및 교체 가능한 어레이 , Bernoulli , vol. 6 번 2 (2000), 285–301.

EL Lehmann 및 JP Romano, 통계적 가설 테스트 , 3 차. ed., Springer (2005). [15 장 : 일반적인 큰 샘플 방법]


지수 분포가 0에서 유사한 "점 질량"을 갖는다는 점을 감안할 때 주문 통계 부트 스트랩의 동작은 나에게 합리적입니다. 지수 분포의 모드가 0이므로 확률이 0이 아닌 것이 합리적입니다. 대부분의 가치! 부트 스트랩은 아마도 기하 분포와 유사 할 것이며 이는 지수의 이산 유사체입니다. 여기 부트 스트랩의 "실패"로 이것을받지 않을 것 -의 예상 수량에 대한 항상 적절한 간격에있다θθX(n)
probabilityislogic

1
@cardinal-무한대 표본이없는 한 점근 적 분포가 적절한 벤치 마크가 아닙니다. 부트 스트랩 분포는 근사하도록 설계된 유한 표본 분포와 비교해야합니다. 당신이 보여주고 싶은 것은 부트 스트랩 반복 횟수가 무한대로 진행됨에 따라 부트 스트랩 분포는 유한 샘플링 분포로 수렴한다는 것 입니다. 보내는 것은 정확한 해결책이 아닌 대략적인 해결책입니다. n
probabilityislogic

5
@ cardinal +1, 나는 이전에 질문을 올렸지 만 기사에 대한 훌륭한 답변, 예제 및 링크에 감사드립니다.
mpiktas

@probabilityislogic은 물론 점근 론 이론의 일반적인 적용에서 수렴 속도에 달려 있습니다. 느리면 적용 할 수 없습니다. 그러나 예를 들어 표본 크기가 100 인 균일 분포를 사용하면 @cardinal에서 설명한 문제가 발생할 것으로 예상되므로 속도가 느리다는 것을 증명해야합니다.
mpiktas

3
@probabilityislogic, 처음에는 가장 최근의 두 의견 중 후자를 보았습니다. 전자를 다루기 위해, "부트 스트랩이 '실패'한다는 의미"라는 제목으로 위 섹션의 처음 두 문장을 볼 수 있습니다. 부트 스트랩은 매개 변수 추정에 관한 것이 아닙니다. 원하는 매개 변수를 추정 할 수있는 좋은 방법이 있다고 가정합니다 (이 경우 제대로 작동 함). 부트 스트랩은 우리가 추론 할 수 있도록 매개 변수 의 분포 에 대해 알고있는 것 입니다. 여기서 부트 스트랩은 분포 ( 매우! )를 잘못 얻습니다 . X(n)
추기경

8

다음 책에는 "부트 스트래핑이 실패에 대한 구제 조치와 함께 실패 할 때"에 관한 장 (Ch.9)이 있습니다.

MR Chernick, 부트 스트랩 방법 : 실무자와 연구원을위한 안내서 , 2 차 개정판. Hoboken NJ : Wiley-Interscience, 2008.

주제는 다음과 같습니다.

  1. 표본 크기가 너무 작음
  2. 무한한 순간을 가진 분포
  3. 극단적 인 가치 추정
  4. 설문 조사 샘플링
  5. M에 종속적 인 데이터 시퀀스
  6. 불안정한 자기 회귀 프로세스
  7. 장기 의존성

1
이 글 의 답에 대한 이 의견 을 보셨습니까 ? 덧붙여서, 그 의견은 Chernick의 책에 대한 아마존 페이지로 연결됩니다. 독자 리뷰는 깨달았습니다.
whuber

@ whuber 글쎄, 나는 그 의견을 눈치 채지 못했습니다. 답변을 삭제해야합니까?
Sadeghd

1
귀하의 답변은 의견의 참조보다 더 상세하기 때문에 잠재적으로 가치가 있습니다. 정보의 요약을 포함합니다. 그렇지 않으면 거의 추가되지 않으므로 삭제하거나 질문에 대한 주석으로 변환해야합니다.
whuber

1

순진 부트 스트랩은 표본 크기가 크므로 데이터에 대한 경험적 CDF가 "진정한"CDF에 대한 근사치입니다. 이를 통해 경험적 CDF에서의 샘플링이 "참"CDF에서의 샘플링과 매우 유사합니다. 극단적 인 경우는 하나의 데이터 포인트 만 샘플링 한 경우입니다. 부트 스트랩은 여기서 아무 것도 달성하지 못합니다. 이 퇴화 사례에 접근함에 따라 점점 더 쓸모 없게 될 것입니다.

부트 스트랩이 순식간에 시계열 분석에서 반드시 실패하지는 않습니다 (비효율적 일 수 있음). 추세 구성 요소에 대해 연속 시간의 기본 함수 (예 : 범례 다항식)와 주기적에 대한 연속 시간의 사인 및 코사인 함수를 사용하여 시리즈를 모델링하는 경우 구성 요소 (정상적인 소음 오류 항). 그런 다음 가능성 함수로 샘플링 된 시간을 입력하면됩니다. 부트 스트랩으로 인한 재난이 없습니다.

모든 자동 상관 또는 ARIMA 모델은 위의 형식으로 표현됩니다.이 모델은 사용하기가 더 쉽고 이해하고 해석합니다 (사인 및 코사인 함수의주기를 이해하기 쉽고 ARIMA 모델의 계수를 이해하기 어렵다). 예를 들어 자동 상관 함수는 시계열의 전력 스펙트럼의 역 푸리에 변환입니다.


@probabilityislogic -1, 우연히 답변을 이전에 비난했습니다 (Blame Opera mini). 비 공감 할 수 있도록 편집해야 했으므로 그러한 전술을 사용하여 죄송합니다. 나는 처음에 대답을 좋아하지 않았기 때문에이 작업을 수행했지만 내 의견을 준비하고 싶었 기 때문에 공감하지 않았다.
mpiktas

1
@probabilityislogic, 시계열 프로세스의 경우 시간이 중요한 역할을하므로 벡터 분포 는 . 예를 들어, 당신은 당신이 맞게하려고하는 것을 얻을 수 있습니다 리샘플링 한 후, AR (1) 모형을 적합하려고하면 순진 부트 스트랩에서 수행대로 리샘플링은이 구조를 파괴 로 입니다, 자연스럽지 않은 것 같습니다. "부트 스트래핑 시계열"에 대해 Google의 기사 인 경우 두 번째 기사 는 시계열의 분산 추정치에 대한 예를 제공합니다.(Xt,Xt+1)(Xt+1,Xt)Y10ρY15
mpiktas

2
@probabilityislogic, AR (1) 모델 에서 의 순진한 부트 스트랩 추정치에 대한 귀하의 아이디어를 증명할 수 있습니까? 나는 그것이 가능하다고 생각하지 않으므로 downvote의 기본 이유입니다. 나는 틀린 것이 증명되어 기쁘다. ρYt=ρYt1+ut
mpiktas

1
@probabilityislogic, 그리고? 이 경우 의 추정치는 얼마입니까? 나는 괴롭힘에 대해 유감스럽게 생각하지만,이 경우 순진한 부트 스트랩이 실패하지 않는다는 것을 어떻게 알 수 있습니까? rho
mpiktas

4
여기 저의 책 에는 부트 스트랩이 실패했을 때의 장과 부트 스트랩이 시계열로 어떻게 적용되는지에 대한 장이 있습니다. 시계열의 경우 부트 스트랩은 모델 기반 접근법에서 모델의 잔차에 적용될 수 있습니다. 다른 비모수 적 시간 영역 접근법은 많은 유형이있는 블록 부트 스트랩입니다.
Michael Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.