부트 스트랩 배포의 평균을보고하지 않는 이유는 무엇입니까?


29

표준 오류를 얻기 위해 매개 변수를 부트 스트랩하면 매개 변수의 분포를 얻습니다. 왜 우리는 그 분포의 평균을 우리가 얻으려는 모수에 대한 결과 또는 추정치로 사용하지 않습니까? 분포가 실제 분포와 비슷하지 않아야합니까? 그러므로 우리는 "실제"가치의 좋은 추정치를 얻을 수 있을까요? 그러나 샘플에서 얻은 원래 매개 변수를보고합니다. 왜 그런가요?

감사

답변:


24

부트 스트랩 통계는 모집단 모수에서 한 단계 더 추상화되기 때문입니다. 모집단 모수, 표본 통계량 및 부트 스트랩이있는 세 번째 계층에만 있습니다. 부트 스트랩 평균값은 모집단 모수에 대한 더 나은 추정값이 아닙니다. 추정치 일뿐입니다.

와 같이 가능한 모든 부트 스트랩 조합을 포함하는 부트 스트랩 분포는 동일한 조건에서 모집단 모수를 중심으로 한 샘플 통계 중심과 마찬가지로 샘플 통계를 중심으로합니다. 이 문서는 여기에 이러한 것들을 요약하고 내가 찾을 수있는 가장 쉬운 것 중 하나입니다. 보다 자세한 증거는 참조하는 논문을 따르십시오. 주목할만한 예는 Efron (1979)Singh (1981)입니다.n

의 부트 스트래핑 분포 의 분포는 다음 θ - θ 신뢰 구간의 구조 내의 샘플 추정치의 표준 오차의 추정에 유용하게, 그리고 파라미터의 바이어스를 추정한다. 모집단 모수에 대해 더 나은 추정량을 제공하지는 않습니다. 통계 분포에 대한 일반적인 모수 분포에 대한 더 나은 대안을 제공 할뿐입니다.θBθ^θ^θ


13

사람들 부트 스트랩 배포의 평균을 사용하는 경우가 적어도 하나 있습니다. 배깅 ( 부트 스트랩 집계의 줄임말 ).

기본 아이디어는 추정기가 데이터의 섭동에 매우 민감한 경우 (예를 들어, 추정기가 높은 분산과 낮은 바이어스를 가짐) 많은 부트 스트랩 샘플의 평균을 계산하여 특정 예의 과적 합량을 줄일 수 있다는 것입니다.

내가 링크 한 페이지는 이것이 추정에 약간의 편향을 초래한다는 것을 지적하므로 샘플 평균이 부트 스트랩 샘플을 평균화하는 것보다 더 의미가있는 이유입니다. 그러나 의사 결정 트리 또는 데이터의 작은 변화에 따라 급격히 변할 수있는 가장 가까운 이웃 분류기와 같은 것이 있다면이 편향이 과적 합만큼 큰 문제가되지 않을 수 있습니다.


1
yθ

나는 일반적으로 반응에 대한 추정치의 분산을 줄이기 위해 배깅이 사용되는 것을 본다 (즉, 데이터 변동에 대한 민감도). 가장 일반적으로 포장 된 모델 (예 : 트리)에는 일반적으로 부트 스트랩 샘플에서 쉽게 비교할 수있는 잘 정의 된 매개 변수가 없습니다.
David J. Harris

고마워, 나도 그렇게 생각 했어. 나에게 자루에 넣기는 반응의 추정치 외에는 의미가없는 것처럼 보이므로 그 의미가 제한적입니다.
Momo

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.