응답 예측 변수 쌍이 임의의 샘플에 의해 모집단으로부터 얻은 경우 case / random-x / your-first resampling scheme을 사용하는 것이 안전합니다. 실험자가 예측 변수를 제어했거나 예측 변수 값을 설정 한 경우 잔차 / 모델 기반 / 고정 -x / 초 리샘플링 체계를 사용할 수 있습니다.
둘은 어떻게 다릅니 까? Davison과 Kounen의 R 에 응용 프로그램이 포함 된 부트 스트랩에 대한 소개에서는 이 질문과 관련된 토론을합니다 (9 페이지 참조). John Fox가 작성한이 부록 의 R 코드, 특히 random-x 체계의 경우 p.5의 boot.huber 및 fixed-x 체계의 경우 p.10의 boot.huber.fix 기능을 참조하십시오. Shalizi 의 강의 노트 에서 두 가지 체계는 서로 다른 데이터 세트 / 문제에 적용되지만 Fox의 부록은 두 가지 체계가 얼마나 자주 차이를 만들 수 있는지 보여줍니다.
두 사람이 언제 거의 동일한 결과를 기대할 수 있습니까? 한 가지 상황은 회귀 모델이 올바르게 지정된 경우입니다. 예를 들어 모델링되지 않은 비선형 성이없고 일반적인 회귀 가정 (예 : iid 오류, 특이 치 없음)이 충족됩니다. 참조 폭스의 책의 제 21 장 합니다 (R 코드와 상기 부록은 간접적으로 속한), 598 페이지에 특히 토론을 21.3 운동. "회귀 분석에서의 임의 추출 대 고정 된 리샘플링". 책에서 인용하려면
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
또한이 논의에서 fixed-x 부트 스트랩이 모델의 기능적 형태가 정확하다고 가정합니다 (오류 분포의 형태에 대한 가정은 없지만).
데릭 베인 (Derek Bain)의 아일랜드 사회 계리사에 대한 이 강연의 슬라이드 12 도 참조하십시오 . 또한 "동일한 결과"로 간주되어야하는 사항에 대한 설명도 있습니다.
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.