부트 스트랩 방법론. 무작위 서브 샘플링 대신“대체로”재 샘플링하는 이유는 무엇입니까?


11

부트 스트랩 방법은 지난 몇 년 동안 크게 확산되었으며, 특히 추론이 매우 직관적이기 때문에 많이 사용합니다.

그러나 그것은 내가 이해하지 못하는 것입니다. Efron이 단일 관측 값을 무작위로 포함하거나 제외하여 단순히 서브 샘플링 대신 교체로 리샘플링을 수행 한 이유는 무엇입니까?

무작위 서브 샘플링은 매우 좋은 품질을 가지고 있다고 생각합니다. 이는 우리가 연구에서 얻은 관측치가 가설 모집단의 일부인 실제 상황을 이상적으로 나타냅니다. 리샘플링 중에 다중 관측 값을 갖는 이점이 없습니다. 실제 상황에서, 특히 복잡한 다변량 상황에 대한 관찰은 다른 관찰과 유사하지 않습니다.


3
리샘플링을 사용한 리샘플링은 모델에 따라 올바른 작업이므로 수행됩니다. 부트 스트랩 뒤의 모델은 비모수 최대 가능성을 사용하여 누적 분포 함수를 추정 한 다음 추정 누적 분포 함수에서 독립적 인 관측 값을 샘플링하는 것입니다. 알고리즘 적으로 생각해보십시오. 이것은 원래의 샘플을 대체하여 샘플링함으로써 얻을 수 있습니다.
kjetil b halvorsen

답변:


10

이 선택을 이해하는 한 가지 방법은 샘플을 현재 모집단에 대해 가장 잘 표현한 것으로 생각하는 것입니다. 더 이상 표본을 채집 할 전체 모집단이 없을 ​​수도 있지만 이러한 특정 모집단 표현이 있습니다. 이 모집단 표현에서 실제로 무작위로 재 샘플링한다는 것은 교체와 함께 샘플링해야한다는 것을 의미합니다. 그렇지 않으면 이후 샘플링은 초기 샘플링 결과에 따라 달라집니다. 특정 부트 스트랩 샘플에서 반복 된 사례의 존재는 특정 반복 된 사례와 유사한 특성을 갖는 기본 집단의 구성원을 나타냅니다. 제안한대로 Leave-one-out 또는 Leave-Several-out 접근 방식을 사용할 수도 있지만 부트 스트랩이 아닌 교차 검증입니다.

나는 이것이 단지 다른 말로 @kjetil_b_halvorsen의 의견을 넣는 것 같아요


나는 요점을 이해한다. 부트 스트랩 샘플에서 서로 독립적으로 개별 관찰을 수행합니다. 문헌에는 서브 샘플링을 기반으로 한 방법이 존재합니다 (Politis, Romano, Wolf 참조). 교체없이 선택된 고정 서브 세트 m의 n을 사용합니다. 그들은 당신이 전에 말했던 함정을 어떻게 피합니까? 그들의 경우에 나는 왜 그들이 무작위 서브 샘플 대신 고정 크기 서브 샘플을 사용하는지 이해하지 못합니다.
Bakaburg

2
서브 샘플링 방법이 부트 스트랩과 다른 것을 달성하려고합니다. 이들 방법은 기초 모집단으로부터 새로운 랜덤 샘플 을 모방하는 대신 데이터 샘플에서 랜덤 서브 세트 를 선택 하려고합니다 . 하나 또는 다른 것이 잘못이 아닙니다. 그것들은 특정한 강점과 약점을 가진 다른 접근법입니다.
EdM

따라서 추론 통계에서 두 방법의 차이점에 대해 새로운 질문을해야 할 수도 있습니다. 감사!
Bakaburg

@Bakaburg 는 부트 스트래핑 대 교차 검증 (특정 유형의 서브 샘플링)에 관한 문헌에 대한 훌륭한 소개를 위해이 질문 을 참조하십시오 .
EdM

@Bakaburg 부트 스트랩 방법은 더 큰 모집단에서 크기가 n (n보다 작은 하위 집합이 아님)의 임의 샘플을 반복적으로 독립적으로 그리는 것을 시뮬레이션합니다. 이것은 무작위 표본이 종종 원래 표본에서 과소 표현되는 모 집단으로부터의 극도로 작거나 큰 값을 많이 포함 할 수 있음을 의미합니다. EdM이 지적한 바와 같이, 교체를 통한 리샘플링은 단일 샘플 관측치가 유사한 값을 갖는 모집단에서 다수의 관측치를 "표현"할 수있게합니다. 이는 모집단 분포의 부드러운 근사치를 얻는 방법입니다.
RobertF
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.