부트 스트랩을 사용하여 회귀 계수의 신뢰 구간을 추정하는 두 가지 방법

데이터에 선형 모델을 적용하고 있습니다 :

{와이}_{나는} = β_{0} + β_{1} {엑스}_{나는} + ϵ_{나는}, ϵ_{나는} \sim 엔 (0, σ^{2}) .

$y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}).$

부트 스트랩 방법을 사용하여 계수 ( , ) 의 신뢰 구간 (CI)을 추정하고 싶습니다 . 부트 스트랩 방법을 적용 할 수있는 두 가지 방법이 있습니다. $\beta_{0}$ $\beta_{1}$

표본 대응 반응 예측 변수 : 쌍을 무작위로 재 표본 하고 각 실행에 선형 회귀를 적용합니다. 실행 된 후 추정 계수 의 모음을 얻습니다 . 마지막으로 의 Quantile을 계산하십시오 . $y_{i}-x_{i}$ $m$ ${\hat{\beta_{j}}}, j=1,...m$ ${\hat{\beta_{j}}}$
샘플 오류 : 먼저 원래 관측 된 데이터에 선형 회귀를 적용합니다.이 모델에서 및 오류를 얻습니다 . 그런 다음 오류를 무작위로 다시 샘플링하고 및 사용하여 새 데이터를 계산하십시오. . 선형 회귀를 다시 한 번 적용하십시오. 실행 된 후 추정 된 coefficeints 의 모음을 얻습니다 . 마지막으로 의 Quantile을 계산하십시오 . $\hat{\beta_{o}}$ $\epsilon_{i}$ $\epsilon^{*}_{i}$ $\hat{\beta_{o}}$ $y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}$ $m$ ${\hat{\beta_{j}}}, j=1,...,m$ ${\hat{\beta_{j}}}$

내 질문은 :

이 두 방법은 어떻게 다릅니 까?
이 두 가지 방법이 동일한 결과를주는 가정은 무엇입니까?

regression bootstrap

— tiantianchen
소스

개인적으로 기본 접근 방식을 사용하지 않고 기본 부트 스트랩 신뢰 구간을 권장합니다. p. 참조 www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf의 8 개. 나는 이진 로지스틱 모델에 대해 많은 시뮬레이션을 해왔고 백분위 수 또는 BCa 부트 스트랩을 사용하는 것보다 기본 부트 스트랩을 사용하여 더 나은 신뢰 구간 적용 범위를 보았습니다.

— Frank Harrell

@FrankHarrell은 "기본"으로 비모수 적 부트 스트랩을 언급하고 있습니까?

— ndoogan

(1)은 기본 부트 스트랩이 아닌 부트 스트랩 백분위 수 비모수 신뢰 구간입니다. 에서 샘플링 하는 것은 무조건 부트 스트랩이며, 잔차를 재 샘플링하는 조건부 부트 스트랩보다 더 가정이 없습니다.

(x, y)

$(x,y)$

— Frank Harrell

나는 실제로 전문가는 아니지만 1) 종종 "사례 리샘플링"이라고하고 2) "잔여 리샘플링"또는 "fixed- "리샘플링이라고합니다. 방법의 기본 선택이 절차 후 신뢰 구간을 계산하는 방법을 의미하지는 않습니다. 이 정보는 주로 John Fox 의 튜토리얼 에서 얻었습니다 . 내가 아는 한 부트 스트랩 후에 기본 부트 스트랩 CI를 계산할 수 있습니다 (예 : in ). 아니면 여기에 아무것도 그리워합니까?

x

$x$ boot.ci(my.boot, type="basic")R

— COOLSerdash

예, 클러스터 부트 스트랩을 수행 할 수 있습니다. 이것은 R rms validate과 calibrate함수 에서 구현됩니다 .

— Frank Harrell

응답 예측 변수 쌍이 임의의 샘플에 의해 모집단으로부터 얻은 경우 case / random-x / your-first resampling scheme을 사용하는 것이 안전합니다. 실험자가 예측 변수를 제어했거나 예측 변수 값을 설정 한 경우 잔차 / 모델 기반 / 고정 -x / 초 리샘플링 체계를 사용할 수 있습니다.

둘은 어떻게 다릅니 까? Davison과 Kounen의 R 에 응용 프로그램이 포함 된 부트 스트랩에 대한 소개에서는 이 질문과 관련된 토론을합니다 (9 페이지 참조). John Fox가 작성한이 부록 의 R 코드, 특히 random-x 체계의 경우 p.5의 boot.huber 및 fixed-x 체계의 경우 p.10의 boot.huber.fix 기능을 참조하십시오. Shalizi 의 강의 노트 에서 두 가지 체계는 서로 다른 데이터 세트 / 문제에 적용되지만 Fox의 부록은 두 가지 체계가 얼마나 자주 차이를 만들 수 있는지 보여줍니다.

두 사람이 언제 거의 동일한 결과를 기대할 수 있습니까? 한 가지 상황은 회귀 모델이 올바르게 지정된 경우입니다. 예를 들어 모델링되지 않은 비선형 성이없고 일반적인 회귀 가정 (예 : iid 오류, 특이 치 없음)이 충족됩니다. 참조 폭스의 책의 제 21 장 합니다 (R 코드와 상기 부록은 간접적으로 속한), 598 페이지에 특히 토론을 21.3 운동. "회귀 분석에서의 임의 추출 대 고정 된 리샘플링". 책에서 인용하려면

By randomly reattaching resampled residuals to ﬁtted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reﬂected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

또한이 논의에서 fixed-x 부트 스트랩이 모델의 기능적 형태가 정확하다고 가정합니다 (오류 분포의 형태에 대한 가정은 없지만).

데릭 베인 (Derek Bain)의 아일랜드 사회 계리사에 대한 이 강연의 슬라이드 12 도 참조하십시오 . 또한 "동일한 결과"로 간주되어야하는 사항에 대한 설명도 있습니다.

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.

— 동면
소스