불확실성의 부트 스트랩 추정에 관한 가정


62

불확실성 추정치를 얻는 데 부트 스트랩의 유용성을 높이 평가하지만, 항상 염려하는 것은 그 추정치에 해당하는 분포가 표본에 의해 정의 된 분포라는 것입니다. 일반적으로 표본 주파수가 근본 분포와 정확히 같다고 생각하는 것은 나쁜 생각 인 것 같습니다. 왜 표본 주파수가 근본 분포를 정의하는 분포를 기반으로 불확실성 추정값을 도출하는 것이 바람직한가?

다른 한편으로, 이것은 우리가 일반적으로하는 다른 분포 가정보다 나쁘지 않을 수도 있지만 (아마도) 타당성을 조금 더 잘 이해하고 싶습니다.


3
몇 가지 관련 질문이 있습니다. 일부는이 페이지의 측면 여백에 나열되어 있습니다. 다음 은 부트 스트랩이 실패한시기와 실패한 의미에 관한 것입니다.
추기경

답변:


55

부트 스트랩을 적용 할 수있는 몇 가지 방법이 있습니다. 가장 기본적인 두 가지 접근 방식은 "비모수 적"및 "모수 적"부트 스트랩으로 간주됩니다. 두 번째는 사용중인 모델이 (필수적으로) 정확하다고 가정합니다.

첫 번째에 집중하자. 분포 함수 F 에 따라 분포 된 랜덤 표본 이 있다고 가정합니다 . (달리 가정하면, 수정 된 접근법을 필요로한다.)하자 F를 N ( X ) = N - 1 Σ N = 1 1 ( X IX ) 일 경험적 누적 분포 함수. 부트 스트랩에 대한 많은 동기는 몇 가지 사실에서 비롯됩니다.엑스1,엑스2,,엑스에프에프^(엑스)=1나는=11(엑스나는엑스)

Dvoretzky–Kiefer–Wolfowitz 불평등

(저녁을 먹다엑스아르 자형|에프^(엑스)에프(엑스)|>ε)2이자형2ε2.

이것이 보여주는 것은 경험적 분포 함수 가 확률 적으로 지수 적으로 빠른 실제 분포 함수로 균일하게 수렴한다는 것 입니다. 실제로 Borel-Cantelli lemma와 결합 된 이러한 불평등은 거의 확실.저녁을 먹다엑스아르 자형|에프^(엑스)에프(엑스)|0

이 수렴을 보장하기 위해 형식에 대한 추가 조건은 없습니다 .에프

경험적으로, 우리 가 매끄럽게 분포 함수의 일부 기능 에 관심이 있다면 , 가 가까울 것으로 예상 합니다.T ( F N ) T ( F )(에프)(에프^)(에프)

(가로) 편견에프^(엑스)

기대의 선형성 및 의 정의 를 통해 각 에 대해(X)R에프^(엑스)엑스아르 자형

이자형에프에프^(엑스)=에프(엑스).

평균 관심이 있다고 가정하십시오 . 그런 다음 경험적 척도의 편견은 경험적 척도의 선형 기능의 편견으로 확장됩니다. 따라서 E F T ( F의 N ) = E F ˉ X N = μ = T ( F )μ=(에프)

이자형에프(에프^)=이자형에프엑스¯=μ=(에프).

따라서 은 평균적으로 정확하며 이 빠르게 접근 하고 있기 때문에 ( ) 은 빠르게 접근 합니다.(에프^)에프^에프(에프^)(에프)

신뢰 구간 ( 기본적으로 부트 스트랩의 모든 것 )을 구성하기 위해 중앙 한계 정리, 경험적 Quantile의 일관성 및 델타 방법을 간단한 선형 함수에서보다 복잡한 관심 통계로 이동하는 도구로 사용할 수 있습니다. .

좋은 참조는

  1. B. 에프론, 부트 스트랩 방법 : 잭나이프에서 또 다른 모습 , 앤. 통계 , vol. 7, 아니요 1, 1 ~ 26.
  2. B. Efron과 R. Tibshirani, 부트 스트랩 소개 , Chapman–Hall, 1994.
  3. GA Young and RL Smith, 통계 추론의 핵심 , Cambridge University Press, 2005, 11 장 .
  4. AW van der Vaart, Asymptotic Statistics , Cambridge University Press, 1998, 23 장 .
  5. P. Bickel과 D. Freedman, 부트 스트랩에 대한 점근 론 . 앤 통계 , vol. 아뇨. 6 (1981), 1196–1217.

@cardinal (+1)이 아주 좋습니다.

명확한 설명, 참고 문헌, 훌륭한 답변.
vesszabo 2016 년

12

그것에 대해 생각하는 다른 접근법이 있습니다.

실제 분포를 아는 이론부터 시작하여 실제 분포를 시뮬레이션하여 표본 통계의 특성을 발견 할 수 있습니다. 이것이 Gosset이 알려진 법선에서 샘플링하고 통계량을 계산하여 t- 분포 및 t- 검정을 개발 한 방법입니다. 이것은 실제로 파라 메트릭 부트 스트랩의 한 형태입니다. 통계의 동작 (때로는 매개 변수와 관련하여)을 발견하도록 시뮬레이션하고 있습니다.

이제 모집단 분포를 모르면 경험적 분포의 분포를 추정하여 그로부터 표본을 추출 할 수 있습니다. 경험적 분포 (알려진)에서 샘플링하여 부트 스트랩 샘플과 경험적 분포 (부트 스트랩 샘플의 모집단) 사이의 관계를 볼 수 있습니다. 이제 부트 스트랩 샘플과 경험적 분포 간의 관계는 샘플에서 알 수없는 인구와의 관계와 같습니다. 물론이 관계가 얼마나 잘 번역되는지는 표본이 얼마나 대표적인 지에 달려 있습니다.

우리는 모집단 평균을 추정하기 위해 부트 스트랩 샘플의 수단을 사용하지 않고, 그에 대한 샘플 평균을 사용합니다 (또는 관심있는 통계가 무엇이든간에). 그러나 부트 스트랩 샘플을 사용하여 샘플링 프로세스의 속성 (확산, 바이어스)을 추정합니다. 그리고 알고있는 집단 (우리가 관심있는 집단을 대표하기를 희망)으로부터의 표본 추출을 사용하여 표본 추출의 효과를 이해하는 것은 의미가 있고 덜 순환 적입니다.


8

부트 스트랩의 주요 트릭 (및 찌르기)은 점근 론 이론이라는 것입니다. 무한 표본으로 시작하면 경험적 분포가 실제 분포에 너무 가까워 차이가 무시할 수 있습니다.

불행하게도 부트 스트랩은 종종 작은 샘플 크기로 적용됩니다. 일반적인 느낌은 부트 스트랩이 매우 비 점근 적 상황에서 작동하는 것으로 나타 났지만 그럼에도 불구하고 조심해야한다는 것입니다. 표본화가 너무 작은 경우 실제로 표본이 실제 분포의 '좋은 표현'이되도록 조건부로 작업하는 것이므로 원으로 추론하기가 쉽습니다. :-)


그것은 제가 생각했던 것과 같지만,이 추론에는 원형이 있습니다. 저는 통계학자는 아니지만 추정치가 빠르게 수렴하면 통계적 유추가 작동하므로 표본이 분포에 수렴하지 않아도 추론은 건전합니다. 이 경우 우리는 전체 분포에 의존하여 실제 분포에 수렴합니다. 어쩌면 일부 부트 스트랩 추정치가 빠르게 수렴한다고 말하는 이론이있을 수 있지만 일반적으로 이러한 이론에 호소하지 않고 부트 스트랩이 적용되는 것을 볼 수 있습니다.
user4733

4
명백한 순환 추론은 이것이 부트 스트랩이라고 불리는 이유입니다. 사람들이 자신의 부트 스트랩으로 자신을 들어 올리려고하는 것처럼 느껴졌습니다. 나중에 Efron은 그것이 실제로 효과가 있음을 보여주었습니다.
Greg Snow

표본 크기가 실제로 작은 경우, 어떤 방법을 사용하든 많은 신뢰가 필요합니다 ...
kjetil b halvorsen

5

나는 "무증상, 경험적 분포는 실제 분포에 가깝다 (물론 사실이다)"라는 관점에서가 아니라 "장기적 관점"이라고 주장한다. 즉, 어떤 특정한 경우에, 부트 스트랩에 의해 도출 된 경험적 분포가 꺼집니다는 (때로는 때로는 때로는 너무 때로는 너무 그런 식으로 왜곡, 이런 식으로 왜곡, 너무 그런 식으로 이동, 너무 이런 식으로 이동), 그러나 평균 이 실제 분포에 대한 근사치입니다. 마찬가지로 부트 스트랩 분포에서 도출 된 불확실성 추정치는 특정 경우에 사라지지만 다시 평균적으로 (대략) 정확합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.