부트 스트래핑은 큰 표본 이론으로 가정 된 것보다 샘플링 분포에 대한보다 강력한 그림을 얻기 위해 수행됩니다 . 부트 스트랩 할 때, 실제로 '부트 샘플'의 수에는 제한이 없습니다. 실제로 더 많은 부트 샘플을 샘플링 분포에 더 가깝게 얻을 수 있습니다. 부트 샘플 을 사용하는 것이 일반적 이지만 그 수에 대해서는 마법이 없습니다. 또한 부트 샘플에서 테스트를 실행하지 않습니다. 샘플링 분포의 추정치가 있습니다. 직접 사용하십시오. 알고리즘은 다음과 같습니다.B = 10 , 000
- 교체와 함께 부트 관찰을 샘플링하여 하나의 데이터 세트의 부트 샘플을 가져옵니다 . [아래 설명과 관련하여 한 가지 관련 질문은 부팅 샘플에 사용할 유효한 '부팅 관찰'을 구성하는 것입니다. 실제로 몇 가지 합법적 인 접근 방식이 있습니다. 견고하고 데이터의 구조를 반영 할 수있는 두 가지에 대해 언급하겠습니다. 관찰 데이터가있는 경우 (예 : 데이터가 모든 차원에서 샘플링 된 경우) 부트 관측은 정렬 된 n- 튜플 (예 : 행) 일 수 있습니다. 예를 들어 예측 변수 하나와 반응 변수 하나가있는 경우 샘플링합니다.n 1 ( x , y ) n 1 j y j y X엔1엔1 ( x , y)주문한 쌍. 반면, 실험 데이터를 사용할 때 예측 변수 값은 샘플링되지 않았지만 실험 단위는 각 예측 변수의 의도 된 수준에 할당되었습니다. 이런 경우, 샘플 수 의 각각 내에서 값을 그런 다음, 예측 변수의 해당 레벨 쌍 그 예측 레벨의 대응 값들. 이런 식으로 샘플링하지 않습니다 .]엔1 개 j 와이제이와이엑스
- 회귀 모형을 적합하고 기울기 추정치를 저장합니다 ( ).β^1
- 교체와 함께 부트 관찰을 샘플링하여 다른 데이터 세트의 부트 샘플을 가져옵니다.엔2
- 다른 회귀 모형을 적합하고 기울기 추정값을 저장합니다 ( ).β^2
- 두 추정치로부터 통계를 (제안 : 기울기 차이 )β^1− β^2
- 통계를 저장하고 메모리를 낭비하지 않도록 다른 정보를 덤프하십시오.
- 1-6 단계 반복, 회B = 10 , 000
- 경사 차이의 부트 스트랩 샘플링 분포 정렬
- 0과 겹치는 bsd의 %를 계산합니다 (더 작은 쪽, 오른쪽 꼬리 또는 왼쪽 꼬리 %)
- 이 비율에 2를 곱하십시오
통계 테스트 인이 알고리즘의 논리는 기본 테스트 (예 : t- 테스트)와 기본적으로 비슷하지만 데이터 또는 결과 샘플링 분포에 특정 분포가 있다고 가정하지는 않습니다. (예를 들어, 정규성을 가정하고 있지 않습니다.) 기본 가정은 데이터가 표본 추출 / 일반화하려는 모집단을 대표한다는 것입니다. 즉, 표본 분포는 모집단 분포와 유사합니다. 데이터가 관심있는 인구와 관련이없는 경우 운이 나빠질 수 있습니다.
예를 들어, 정규성을 가정하지 않을 경우 기울기를 결정하기 위해 회귀 모델을 사용하는 것에 대해 걱정하는 사람들이 있습니다. 그러나이 문제는 잘못되었습니다. Gauss-Markov 정리는 추정값이 공정하지 않다 (즉, 실제 값을 중심으로 함)를 나타내므로 괜찮습니다. 정규성의 부재는 단순히 실제 샘플링 분포가 이론적으로 정한 분포와 다를 수 있으므로 p- 값이 유효하지 않음을 의미합니다. 부트 스트랩 절차를 통해이 문제를 해결할 수 있습니다.
부트 스트랩 관련 두 가지 다른 문제 : 기존 가정이 충족되면 부트 스트랩은 파라 메트릭 테스트보다 효율성이 떨어집니다 (즉, 전력이 더 적습니다). 둘째, 부트 스트랩은 분포의 중심 근처를 탐색 할 때 가장 잘 작동합니다. 평균과 중간 값은 양호하고 사 분위수는 좋지 않으며 최소 또는 최대 부트 스트랩은 반드시 실패합니다. 첫 번째 요점과 관련하여 상황에 따라 부트 스트랩하지 않아도됩니다. 두 번째 점에 관해서는, 경사를 부트 스트랩하는 것은 완벽합니다.