부트 스트랩이 필요한 이유는 무엇입니까?


16

저는 현재 Larry Wasserman의 "All of Statistics"를 읽고 있으며 비모수 적 모델의 통계 함수 추정에 관한 장에서 쓴 내용에 의문을 가지고 있습니다.

그가 썼다

"때로는 일부 계산을 수행하여 통계 함수의 추정 표준 오차를 찾을 수 있습니다. 그러나 다른 경우에는 표준 오차를 추정하는 방법이 명확하지 않습니다".

다음 장에서 그는이 문제를 해결하기 위해 부트 스트랩에 대해 이야기하고 싶지만이 진술을 이해하지 못하기 때문에 Bootstrapping에 대한 인센티브를 완전히 얻지 못했습니까?

표준 오차를 추정하는 방법이 확실하지 않은 경우에는 어떤 예가 있습니까?

내가 지금까지 본 적이 모든 예제는 "명백한"등이었다 다음 ^ S E ( P의 N ) = X1,...Xn Ber(p)se^(p^n)=p^(1p^)/n


답변:


16

두 가지 대답입니다.

  1. 두 평균 비율의 표준 오차는 무엇입니까? 중앙값의 표준 오차는 무엇입니까? 복잡한 통계의 표준 오차는 무엇입니까? 폐쇄 형 방정식이있을 수 있지만 아직 아무도이를 풀지 못했을 수 있습니다.
  2. 평균의 표준 오차에 대한 공식을 사용하려면 몇 가지 가정을해야합니다. 이러한 가정을 위반하면 해당 방법을 반드시 사용할 수는 없습니다. @Whuber가 의견에서 지적했듯이 부트 스트랩을 사용하면 이러한 가정 중 일부를 완화 할 수 있으므로 더 적절한 표준 오류를 제공 할 수 있습니다 (추가 가정도 가능).

2
답 1은 괜찮지 만 답 2는 질문을 구하는 것 같습니다. 왜냐하면 부트 스트랩도 가정이기 때문입니다. 요점은 일반적으로 다른 인기있는 절차와 다른 가정 을한다고 생각할 수 있지만, 당신이 말하려는 것에 대한 나의 추측 일뿐입니다.
whuber

@ 우버-감사합니다, 약간의 설명을 추가했습니다.
Jeremy Miles

5
편집 해 주셔서 감사합니다. 그러나 부트 스트랩 이 실제로 일부를 완화시키는 대신 다른 가정 을하는 경우가 아닌가? 예를 들어 표본 평균의 SE를 추정하는 데 필요한 가정은 데이터가 iid이고 기본 분포에 유한 분산이 있다는 것입니다. 부트 스트랩은 실제로이 경우 가정 을 추가해야 합니다. 샘플 크기가 "충분히 큰"경우가 아니면 작동하지 않습니다. 이것이 기술적 문제를 다루는 것처럼 보일지 모르지만 내가 해결하려는 것은 큰 그림입니다. 부트 스트랩은 만병 통치약이 아니며 항상 적용 가능한 것은 아닙니다.
whuber

3
@JeremyMiles 부트 스트랩에는 가정이 없습니다. 표준 오류에 대한 일관된 추정량을 얻는 것보다 복잡 할 수있는 대부분의 부트 스트랩 오류 계산에 분포가 중추적인지 확인해야합니다. 또한 평균 비율은 δ- 방법에서 얻은 매우 쉬운 오차 근사값을 갖습니다. 그래서 나는 그 예가 OP의 요점을 무시한다고 생각하지 않습니다.
AdamO

9

예를 들어 설명해보십시오. 인과 모델링 프레임 워크에서 (관심 노출)과 Y (관심 결과 ) 간의 관계 가 변수 W 에 의해 매개 되는지 여부를 결정하는 데 관심이 있다고 가정합니다 . 이는 두 가지 회귀 모형에서 다음을 의미합니다.XYW

E[Y|X]=β0+β1XE[Y|X,W]=γ0+γ1X+γ2W

β1γ1

Y 는 로지스틱 회귀 모델의 이진 사건 (심근 또는 신경 학적 경색)이거나 관상 동맥 석회화 (CAC), 좌심실 배출 분획 (LVEF) 또는 좌심실 질량 (LVM)과 같은 연속 변수 일 수 있습니다.

우리는 흡연에 대한 적응과 연령, 성별, 소득, 심장병의 가족력과 같은 다른 혼란 자와 함께 다음 두 가지 모델에 맞을 것입니다. 모델 1과 2 사이의 흡연 효과의 차이는 우리가 추론의 기초가되는 곳입니다.

우리는 가설 를 테스트하는데 관심이있다

H:β1=γ1K:β1γ1

T=β1γ1S=β1/γ1TSp


TSTS

T에스

내가 이것을 이해할 수있는 유일한 방법은 첫 번째로 중첩 될 두 번째 모델을 이해하는 것이므로 테스트중인 가설은 γ2=0. 나는 두 개의 분리 된 모델을 포함하는 "가설"의 유효한 정의조차 모른다.
whuber

@ whuber 아 혼란을 참조하십시오. 여기에서 MacKinnon권장 기사를 참조 하십시오 .
AdamO

감사합니다.이 참조는 귀하의 모범을 훨씬 더 잘 이해하는 데 도움이됩니다. 나는 그 접근법에 관련된 많은 이론적 독창주의에 대해 유보했지만, 당신의 모범과는 무관하다. 사람들이 실제로 이런 방식으로 데이터를 이해하려고 시도했고, 또는 에스. 그러나 마지막 단락은 여전히 ​​구별하지 않습니다. 그리고 그 견적 : A는 모델 속성 과 같은 어떤 유통없이 SE가 없습니다. 의 견적 자배포판이 있습니다.
whuber

2

각 통계 측정에 대해 파라 메트릭 솔루션을 사용하는 것이 바람직하지만 동시에 비현실적입니다. 이러한 경우 부트 스트랩이 유용합니다. 내 마음에 떠오르는 예는 치우친 비용 분배의 두 가지 수단의 차이에 관한 것입니다. 이 경우, 고전적인 2- 표본 t- 검정은 이론적 요구 사항 (조사중인 샘플이 긴 오른쪽 꼬리로 인해 정규성에서 확실히 벗어난 분포)을 충족시키지 못하고 비모수 적 테스트는 전달할 수 없습니다. 의사 결정자에게 유용한 정보 (보통 순위에 관심이없는 사람). 이 문제에서 멈추는 것을 피할 수있는 해결책은 2- 표본 부트 스트랩 t- 테스트입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.