부트 스트랩 샘플의 크기


9

샘플 통계의 분산을 추정하는 수단으로 부트 스트랩에 대해 배우고 있습니다. 하나의 기본적인 의심이 있습니다.

http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf 에서 인용 :

• 몇 번의 관찰을 다시 샘플링해야합니까? 좋은 제안은 원래 샘플 크기입니다.

원래 샘플에서와 같이 많은 관측 값을 어떻게 리샘플링 할 수 있습니까?
표본 크기가 100이고 평균의 분산을 추정하려고합니다. 총 표본 크기 100에서 크기가 100 인 여러 부트 스트랩 샘플을 얻으려면 어떻게 해야합니까? 이 경우 1 개의 부트 스트랩 샘플 만 가능하며 이는 원래 샘플과 동일합니까?

나는 매우 기본적인 것을 분명히 오해하고 있습니다. 나는 이해 이상적인 부트 스트랩 샘플은 항상 무한하고, 마음에 내 필요한 정밀도를 유지 나는 수렴을 위해 테스트해야 할 것 내 데이터에 필요한 부트 스트랩 샘플의 수를 결정합니다.
그러나 각 개별 부트 스트랩 샘플 의 크기가 무엇인지에 대해 혼란 스럽습니다 .


7
p의 상단 3, 그리고 그 그림들은 리샘플링이 대체
whuber

그러나 부트 스트랩 샘플 크기가 내가 보유한 총 관측치 수와 같으면 무엇을 대체해야합니까?
user1265125

단순화 된 예-샘플 세트로 4,1,3,7,5가있는 경우. 크기가 5 인 부트 스트랩 샘플을 여러 개 만들려면 어떻게해야합니까? 유일한 크기 5 부트 스트랩 샘플은 4,1,3,7,5, 즉 원래 샘플 세트입니다.
user1265125

1
오, 나는 이해했다- "• 샘플링 분포를 시뮬레이션하기 위해, 우리는 샘플의 많은 복사본으로 구성된이"인구 "에서 반복 된 무작위 샘플을 취할 수 있습니다"
user1265125

답변:


16

부트 스트랩은 교체 샘플링 으로 수행됩니다 . "대체"라는 용어는 명확하지 않은 것 같습니다. whuber 에 의해 언급 된 바와 같이 , 교체 된 샘플링의 예는 p. 참조하는 용지 중 3 개 (아래에서 재현).

교체 샘플링의 예

(출처 : http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

교체를 통한 샘플링의 일반적인 아이디어는 모든 사례를 여러 번 샘플링 수 있다는 것입니다 (위의 첫 번째 이미지의 녹색 대리석, 마지막 사진의 파란색 및 보라색 대리석). 이 과정을 상상하고 싶다면 화려한 대리석으로 채워진 그릇을 생각해보십시오. 이 그릇에서 몇 개의 구슬을 그립니다. 교체 하지 않고 샘플을 채취 한 경우 그릇에서 구슬을 꺼내어 샘플 된 것을 옆에 두는 것입니다. 당신이 샘플링 경우 교체, 당신은 노트북의 그것의 색상 아래에 서명, 그릇의 하나의 대리석을 취함으로써, 하나씩 구슬을 샘플링 한 후 것 다시 돌려그릇에. 따라서 교체를 통해 샘플링 할 때 동일한 구슬을 여러 번 샘플링 할 수 있습니다.

샘플링 할 때 그렇게 하지 않고 교체, 당신은 단지 샘플 수 이 들어있는 그릇의 구슬 샘플링의 경우에는 동안, 구슬 교체하면 구슬 (더 큰 다음 임의의 수의 샘플링 할 수 유한 모집단을). 당신이 샘플링하면 에서 구슬 없이 교체 정확히 동일한 샘플로하지만 단행 위해 끝낼 것이다. 당신이 샘플링하면 에서 구슬 교체 할 때마다 당신은 아마도 구슬의 다른 조합을 맛볼 수 있습니다.nnnnnnn

이 샘플링 방법 없이 교체 크기의 인구에서 사례를 과 샘플링의 방법 으로 교체. 그 뒤에 수학에 대한 자세한 내용을 보려면 2.1을 확인할 수 있습니다 . Hossein Pishro-Nik의 확률 온라인 핸드북 소개의 조합 장 . WolframMathWorld 페이지 에는 편리한 치트 시트도 있습니다.(nk)kn(n+k1k)


0

몇 개의 관측 값을 다시 샘플링해야합니까? 좋은 제안은 원래 샘플 크기입니다.

원래 표본 크기가 너무 커서 전체 데이터 세트에서 모형을 원하지 않거나 훈련시킬 수없는 경우 "좋은 제안"은 그리 좋지 않습니다.

추신 :이 질문에 대한 의견으로 이것을 추가하고 싶었지만 의견을 추가 할 수는 없습니다 ...


1
이 제안을 왜 추가 하시겠습니까? 이것이 정기적 인 계산 노력에 비해 너무 큰 데이터 세트로 인한 것이라면, 이는 실제적인 문제이지만, 여기서 문제가 된 부트 스트랩 이론에는 실제로 적용되지 않습니다. 또한 이것은 '통계량의 분산 추정'에 관한 것입니다. 그것은 실제로 모델 훈련과 관련이 있습니까? (무례한 것은 아니지만, 아직 의견을 게시 할 수는 없지만 이해가 되더라도 게시 할 때 관련 답변을 제공하지 않아도됩니다. 더 명확하거나 직접 질문을 게시해야합니다.)
IWS
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.