평신도에게 왜 부트 스트랩이 작동하는지 설명


326

최근에 부트 스트랩을 사용하여 프로젝트의 신뢰 구간을 추정했습니다. 통계에 대해 잘 모르는 사람이 최근에 부트 스트랩이 작동하는지, 즉 동일한 샘플을 반복해서 재 샘플링하는 것이 좋은 결과를주는 이유 를 설명해달라고 요청 했습니다. 나는 그것을 사용하는 방법을 이해하는데 많은 시간을 보냈지 만 부트 스트랩이 왜 작동하는지 이해하지 못한다는 것을 깨달았다.

구체적으로 : 표본에서 리샘플링하는 경우 표본에 대한 것이 아니라 모집단에 대해 무엇을 배우고 있습니까? 다소 반 직관적 인 도약이있는 것 같습니다.

나는이 질문에 대한 몇 가지 대답을 여기서 반쯤 이해했습니다. 특히 이것 . 나는 통계학자가 아니라 통계의 "소비자"이며, 나는 통계보다 훨씬 덜 알고있는 사람들과 함께 일합니다. 그렇다면 누군가가 이론에 대한 최소한의 언급으로 부트 스트랩의 기본 추론을 설명 할 수 있습니까? 즉, 이웃에게 설명해야한다면 어떻게 할 것입니까?


13
(+1) 당신이 보았던 질문들을 간단히 언급 할 수 있지만, 당신을 만족 시키지는 않습니다. 있습니다 많은 여기 부트 스트랩에 대한 질문은. :)
추기경

@ cardinal 감사합니다, 나는 원래 게시물을 업데이트했습니다. 잘하면 더 명확합니다. :)
Alan H.

5
한 가지주의해야 할 점은 부트 스트랩은 다단계 모델 및 다단계 샘플링 디자인과 같이 계층 적으로 구조화 된 데이터에서 쉽게 작동하지 않습니다. 사용해야하는 "부트 스트랩"을 아는 것이 매우 혼란 스럽다.
probabilityislogic

2
기본적으로 부트 스트랩은 비모수 최대 가능성이므로 작동합니다. 따라서 최대 가능성에 문제가있는 경우 부트 스트랩에 문제가있을 수 있습니다.
kjetil b halvorsen

3
Jake VanderPlas는 PyCon 16에서 부트 스트랩 및 기타 관련 기술에 대해 크게 이야기했습니다. 참조 슬라이드를 슬라이드 (71)에서 시작 비디오 녹화 .
thm

답변:


198

내가 보통 제공하는 중간 길이 버전은 다음과 같습니다.

당신은 인구의 질문을하고 싶지만 당신은 할 수 없습니다. 그래서 당신은 샘플을 가지고 대신 그 질문을합니다. 이제 표본 답변이 모집단 답변에 가까워 졌다는 것이 얼마나 확신을 가질 수 있는지는 분명하게 인구 구조에 달려 있습니다. 이것에 대해 배울 수있는 한 가지 방법은 모집단에서 샘플을 반복해서 가져 와서 질문하고 샘플 응답이 얼마나 변했는지를 보는 것입니다. 이것이 불가능하기 때문에 모집단의 모양에 대해 몇 가지 가정을 하거나 실제로 알아야 할 샘플정보를 사용할 수 있습니다 .

예를 들어 그것이 정상이거나 Bernoulli 또는 다른 편리한 소설이라고 가정하기로 결정했다고 상상해보십시오. 이전 전략에 따라 샘플을 요청했을 때 질문에 대한 답변의 양이 기존 샘플과 동일한 크기의 샘플을 반복적으로 생성하고 동일한 질문을하여 얻은 특정 샘플에 따라 달라질 수 있음을 다시 배울 수 있습니다 질문. 그것은 계산적으로 편리한 가정을 선택한 정도로 간단합니다. ( 특히 편리한 가정과 사소한 수학을 사용하면 샘플링 부분을 완전히 무시할 수 있지만 여기서는 의도적으로 무시합니다.)

가정을 기뻐한다면 좋은 생각처럼 보입니다. 그렇지 않다고 상상해보십시오. 대안은 가지고있는 샘플을 가져와 대신 샘플에서 추출하는 것입니다. 여러분 이 가지고있는 표본이 또한 아주 작은 이산 인 모집단이기 때문에 이렇게 있습니다 . 데이터의 히스토그램처럼 보입니다. '교체 포함'샘플링은 표본을 모집단처럼 취급하고 모양을 반영하는 방식으로 표본을 추출하는 편리한 방법입니다.

이것은이다 합리적인 때문에 할 수있는 것뿐만 아니라 당신이 최선을 가지고있는 샘플, 실제로 단지 는 인구가 실제로처럼 보이지만 또한 무작위로 선택하는 경우 대부분의 샘플, 등 확실히 보이는 것 때문에 일에 대해이 정보 그들이 온 인구. 결과적으로 당신도 그렇게 할 것입니다.

직관을 위해 다양한 방법으로 다양한 가정에서 생성 된 샘플링 된 정보를 집계하여 가변성에 대해 배울 수있는 방법에 대해 생각하는 것이 중요합니다. 닫힌 형태의 수학 솔루션의 가능성을 완전히 무시하는 것이 이것을 분명히하기 위해 중요합니다.


5
좋은 대답입니다. 특히 두 번째 단락이 마음에 듭니다.
Peter Flom

19
(+1) 이것은 좋은 대답입니다. 그래도 매우 중요한 점을 더 이끌어 낼 수있는 방법이 있다고 생각합니다. 부트 스트랩이 정상적으로 수행되는 방식에는 두 가지 효과가 있습니다. 첫째, 우리는 우리가 얻은 표본이 우리 인구의 대변인 인 척합니다. 샘플 크기가 합리적이라면 이것은 명목상 합리적인 일입니다. 그러나 우리는 일반적으로 그 척도 분포에서 실제 관심 수량을 계산하는 데 어려움을 겪습니다. 그래서 , 우리는 그것들 을 추정 해야하고, 이것이 많은 부트 스트랩 샘플을 그리는 이유입니다. 만약 우리가 ... / ...
추기경

11
... / ... 가장 분포 된 분포에 대한 관심 수량을 직접 계산하십시오. 그리고 그것은 진짜 부트 스트랩 일 것입니다. 그러나 일반적으로 할 수 없으므로 대신 리샘플링 해야하는 횟수가 줄어 듭니다.
추기경

8
@ naught101 "합리적인 큰"는 DKW 불평등에 의해 아주 잘 정량화 할 수있다 (당신이 원한다면, 당신은 OP의 질문에있는 링크에 내 대답을 볼 수 있습니다)와 관련하여 많은 , 그것은 관심의 표본 통계량에 따라, 그러나 부트 스트랩 샘플 이있는 경우 간단한 Monte Carlo를 사용하면 표준 오류가 대략 있습니다. O ( B - 1 / 2 )BO(B1/2)
추기경

4
@ 추기경 : 좋은 의견. 많은 사람들은 부트 스트랩과 리샘플링이 실제로 전자에 사용되는 도구 일 때 동일한 것이라고 생각합니다. 이와 유사한 오해는 많은 통계 사용자가 MCMC와 베이지안 분석을 혼동하는 경향이 있다는 것입니다.
MånsT

122

@ConjugatePrior +1, 나는 그의 대답에 암시적인 한 가지 점을 제시하고 싶습니다. 이 질문은 "샘플에서 리샘플링하는 경우 샘플에 대한 것이 아니라 모집단에 대해 무엇을 배우고 있는가?" 리샘플링은 모집단 분포를 추정하기 위해 수행 되지 않습니다. 우리는 표본 자체를 모집단의 모델로 사용합니다. 오히려, 리샘플링은 문제의 샘플 통계 의 샘플링 분포 의 추정치를 제공하기 위해 수행됩니다 .


10
(+1) 이것은 ConjugatePrior의 답변에 대한 의견에서 언급하려고했던 시점에 가깝지만 더 간결하고 명확하게 언급했습니다. 특별한 경우, 표본 에서 얻은 경험적 분포 하에서 검정 통계량의 샘플링 분포를 계산할 수 있습니다 . 그러나 일반적으로 우리는 할 수 없으므로 시뮬레이션을 강요받습니다. :)
추기경

7
내가 당신을 이해한다면,이 기법은 표본이 적절한 모집단의 모형이라고 가정하고, 따라서이 표본에 대해 충분히 큰 규모로 리샘플링하면 집단에 대해 무언가가 드러날 것입니다. 원래 샘플은 좋은 것입니다. 이제는 거의 명백해 보입니다.
Alan H.

4
@AlanH., 난 그냥 "... 모집단 에 대한 무언가를 공개 할 것입니다 "에서 "... 샘플링 분포 에 관한 무언가를 공개 할 것입니다 "(문제의 통계, 예를 들어 평균). 그러나 그렇습니다, 당신은 거기에 있습니다
gung

물론 당신은 모두 맞습니다. 개인적으로, 그리고 순수하게 교육적인 이유로, 나는이 점을 '더 긴 버전'으로 저장한다. 왜냐하면 나의 특정 청중들에서이 점은 너무 빨리 적용된다면 그들의 젊고 여전히 불안정한 직관을 깨뜨리는 경향이 있기 때문이다.
conjugateprior

3
@ErosRam, 부트 스트랩은 무언가의 샘플링 분포를 결정하는 것입니다. 표본 통계량 (예 : 56 번째 백분위 수) 또는 검정 통계량 (t) 등에 대해이를 수행 할 수 있습니다. 내 이항 법에서 표본 분포는 분명히 0 헤드-25 %입니다. 1 머리-50 %; 2 헤드-25 %; 이것은 리샘플링없이 분명합니다. Cardinal은 이것을 설명하는 어딘가에 의견이 있습니다 (사이트의 많은 최고의 답변이 카디널의 의견입니다). 그러나 b / c를 찾기는 어렵습니다.
gung

43

이것은 아마도 통계와 수학 (적어도 미적분학)을 이해하는 사람들을 대상으로 한 기술적 인 설명 일 것입니다. 여기에 내가 전에 가르친 설문 조사 부트 스트랩에 대한 과정의 슬라이드가 있습니다.

부트 스트랩 원리

TE[X]=xdFFn()dFF()TθFn()Tθ^nθθ^nθ

샘플링 절차를 반복 할 수 있다면, 그 분포를 얻고 더 많은 것을 배울 수 있습니다. 글쎄, 그것은 보통 우리의 능력을 넘어선 것입니다. 그러나

  1. FnF
  2. TF()θ

Fn()F()nnn5θ^nθ^nθ^nθ

θ^n to θ^n is like θ^n to θ

θ^nθ^n

TFnFθ^nθ^nθ^nθF

nnθ^nθθ^n(r)θ^nθ^n


7
이 답변은 일반 청중이 접근 할 수있는 지점을 완전히 놓치고 있습니다.
Tripartio

20

나는 이것이 어려운 일이고 많은 오해가 있음에 동의하기 때문에이 질문에 대답하고 있습니다. Efron과 Diaconis는 1983 Scientific American 기사에서 시도했지만 실패했습니다. 좋은 일을하는 부트 스트랩에 관한 몇 권의 책이 있습니다. Efron과 Tibshirani는 1986 년 Statistical Science의 기사에서 훌륭한 역할을 수행했습니다. 저는 부트 스트랩 방법 책에서 실무자가 부트 스트랩에 액세스 할 수 있도록 특히 열심히 노력했습니다. . 팀 헤스터 버그 (Tim Hesterberg)는 데이비드 무어 (David Moore)의 입문 통계 책 중 하나를 보완하는 장을 작성했습니다. 늦은 Clifford Lunneborg는 멋진 책을 가지고있었습니다. Chihara와 Hesterberg는 최근 부트 스트랩 및 기타 리샘플링 방법을 다루는 중간 수준의 수학 통계 책을 발표했습니다. Lahiri 또는 Shao 및 Tu와 같은 고급 책조차도 훌륭한 개념적 설명을 제공합니다. Manly는 순열과 부트 스트랩을 다루는 그의 책을 잘 사용합니다. 더 이상 부트 스트랩에 대해 의아해 할 이유가 없습니다. 부트 스트랩은 부트 스트랩 원칙에 의존한다는 점을 명심하는 것이 중요합니다. "교체를 통한 샘플링은 원본 샘플이 모집단에서 동작하는 방식으로 원본 샘플에서 동작합니다.이 원칙이 실패하는 예가 있습니다. 모든 통계적 문제에 대한 답은 아닙니다. 좋은 개념적 설명을 제공합니다. Manly는 순열과 부트 스트랩을 다루는 그의 책을 잘 사용합니다. 더 이상 부트 스트랩에 대해 의아해 할 이유가 없습니다. 부트 스트랩은 부트 스트랩 원칙에 의존한다는 점을 명심하는 것이 중요합니다. "교체를 통한 샘플링은 원본 샘플이 모집단에서 동작하는 방식으로 원본 샘플에서 동작합니다.이 원칙이 실패하는 예가 있습니다. 모든 통계적 문제에 대한 답은 아닙니다. 좋은 개념적 설명을 제공합니다. Manly는 순열과 부트 스트랩을 다루는 그의 책을 잘 사용합니다. 더 이상 부트 스트랩에 대해 의아해 할 이유가 없습니다. 부트 스트랩은 부트 스트랩 원칙에 의존한다는 점을 명심하는 것이 중요합니다. "교체를 통한 샘플링은 원본 샘플이 모집단에서 동작하는 방식으로 원본 샘플에서 동작합니다.이 원칙이 실패하는 예가 있습니다. 모든 통계적 문제에 대한 답은 아닙니다. 교체를 통한 샘플링은 원본 샘플이 모집단에서 작동하는 방식으로 원본 샘플에서 작동합니다. 이 원칙이 실패하는 예가 있습니다. 부트 스트랩이 모든 통계적 문제에 대한 해답이 아님을 아는 것이 중요합니다. 교체를 통한 샘플링은 원본 샘플이 모집단에서 작동하는 방식으로 원본 샘플에서 작동합니다. 이 원칙이 실패하는 예가 있습니다. 부트 스트랩이 모든 통계적 문제에 대한 해답이 아님을 아는 것이 중요합니다.

여기에 내가 언급 한 모든 책에 대한 아마존 링크가 있습니다.

리샘플링 및 R을 사용한 수학적 통계

부트 스트랩 방법 및 응용

부트 스트랩 방법 : 실무자와 연구원을위한 안내서

R에 응용 프로그램을 사용하는 부트 스트랩 방법 소개

종속 데이터에 대한 리샘플링 방법

생물학의 무작위 화, 부트 스트랩 및 Monte Carlo 방법

부트 스트랩 소개

비즈니스 통계 도우미 실습 18 장 : 부트 스트랩 방법 및 순열 테스트

리샘플링을 통한 데이터 분석 : 개념 및 응용

잭나이프, 부트 스트랩 및 기타 리샘플링 계획

잭나이프와 부트 스트랩

가설의 순열, 모수 및 부트 스트랩 검정

부트 스트랩 및 Edgeworth 확장


2
@ Procrastinator. 나는 더 자주하고 있습니다. 어떤 경우에는 답변을 게시하고 나중에 다시 정리하기 위해 서두르고 있습니다. 제목별로 링크 주소를 링크로 변환 할 필요가 없으며 이것이 모두 필요한지 확실하지 않습니다. 한 번의 클릭으로 어느 쪽이든 클릭 할 수 있습니다. 그러나 기다릴 수없는 경우 편집을 수행해도 상관 없습니다. 사실 고맙습니다.
Michael Chernick

1
"하지만 기다릴 수없는 경우"가 제거 된 상태에서 "편집을 수행해도 괜찮습니다"라는 의견을 변경하려고했습니다. 나는 당신이 한 일이 더 깔끔하고 쉬우 며 시간이 덜 걸리는 것을 보았지만 아직 배우지 않았으며 일부 중재자와 다른 회원들처럼 그렇게 많이 보지 못했습니다.
Michael Chernick

1
10,000

미안합니다. 나는 오늘 그 총계에 도달 할 것으로 예상하고 있었다.
Michael Chernick

10

부트 스트랩을 통해 동일한 그룹의 데이터 (샘플 데이터)에서 샘플을 반복해서 가져와 전체 인구 (실제 세계에 존재하는 것)에 대한 추정치가 얼마나 정확한지 추정 할 수 있습니다.

하나의 표본을 취하여 실제 모집단을 추정하는 경우 추정치의 정확도를 추정하지 못할 수 있습니다. 추정치가 하나 뿐이며이 추정치가 발생했을 수있는 다른 표본과 어떻게 다른지 식별하지 못했습니다.

부트 스트랩에서는이 기본 샘플을 사용하여 여러 샘플을 생성합니다. 예를 들어, 매일 1000 일 동안 수익을 측정 한 경우이 세트에서 임의의 샘플을 가져올 수 있습니다. 우리는 임의의 하루로부터 이익을 얻고, 기록하고, 다른 임의의 하루로부터 이익을 얻습니다 (이것은 전날과 같은 날이 될 수 있습니다-교체로 샘플링). 1000days의 샘플 (원래 샘플에서).

이 "새로운"샘플은 원본 샘플과 동일하지 않습니다. 실제로 위와 같이 여러 개의 "새로운"샘플을 생성 할 수 있습니다. 평균과 추정치의 변동을 살펴보면 원래 추정치의 정확도를 읽을 수 있습니다.

편집-의견에 대한 답변

"최신"샘플은 첫 번째 샘플과 동일하지 않으며이를 기반으로 한 새로운 추정치는 다양합니다. 이것은 모집단의 반복 샘플을 시뮬레이션합니다. 부트 스트랩에 의해 생성 된 "최신"샘플의 추정값의 변동은 모집단과 다른 샘플이 제공 될 때 샘플 추정값이 어떻게 달라질 지에 대한 정보를 제공합니다. 이것이 실제로 원래 추정치의 정확성을 측정하는 방법입니다.

물론 부트 스트랩하는 대신 모집단에서 몇 개의 새로운 샘플을 가져 오는 것이 좋지만 실행이 불가능할 수 있습니다.


5
감사! 이만큼 이해합니다. 특히 모집단 표본에서 리샘플링하면 기본 모집단을 이해하는 데 어떻게 도움이되는지 궁금합니다. 샘플에서 리샘플링하는 경우 샘플에 대한 것이 아니라 모집단에 대해 무엇을 배우고 있습니까? 다소 반 직관적 인 도약이있는 것 같습니다.
Alan H.

4

나는 이것이 받아 들일 수있는 오래된 질문이라는 것을 알고 있지만 부트 스트랩 방법에 대한 나의 견해를 제시하고 싶습니다. 나는 어떤 식 으로든 전문가가 아니며 (OP로 더 많은 통계 사용자) 수정이나 의견을 환영합니다.

SiT(Si)

대신 크기 98의 모든 하위 세트를 고려하여 JK-2 (2 개 요소 삭제) 또는 JK-3 등을 얻을 수 있습니다.

이제 부트 스트랩은 무작위 버전입니다. 대체를 통해 선택을 통해 리샘플링을 수행하면 임의의 수의 요소 ( "아무도 없음")를 "삭제"하고 하나 이상의 복제본으로 "대체"할 수 있습니다.

복제본으로 교체하면 리샘플링 된 데이터 집합의 크기는 항상 같습니다. jackknife의 경우 100이 아닌 99 크기의 샘플에서 jackknifing의 효과가 무엇인지 물어볼 수 있지만 샘플 크기가 "충분히 큰"경우에는 문제가되지 않습니다.

jackknife에서는 삭제 된 추정치가 동일한 크기의 샘플에서 추출되도록 delete-1과 delete-2 등을 절대로 혼합하지 마십시오.

또한 크기 100의 표본을 예를 들어 크기 10의 10 개의 표본으로 나누는 것을 고려할 수도 있습니다. 이것은 이론적 인 측면에서 더 깨끗하지만 (독립적 인 부분 집합), 비실용적 이도록 표본 크기 (100에서 10까지)를 줄입니다. 사례).

특정 크기의 부분적으로 겹치는 부분 집합을 고려할 수도 있습니다. 이 모든 것은 부트 스트랩 방법에 의해 자동적이고 균일하며 임의의 방식으로 처리됩니다.

또한 부트 스트랩 방법을 사용하면 원래 표본의 경험적 분포에서 통계의 샘플링 분포를 추정 할 수 있으므로 표준 오차 외에 통계의 추가 속성을 분석 할 수 있습니다.


1

Paraphrasing Fox , 나는 당신의 관찰 된 샘플로부터 반복적으로 리샘플링하는 과정이 전체 모집단으로부터의 최초 샘플링 과정을 모방 한 것으로 나타났다고 말하면서 시작할 것입니다.


위의 링크는 쓸모가 없으므로 Fox가 말한 것을 모릅니다. 그러나 부트 스트랩이 오류를 발생시키는 문제를 해결하지 못했습니다. 지구상의 언어의 상대적 빈도에 대해 알고 싶다고 가정 해보십시오. 인터넷에서 샘플을 가져 와서 샘플을 다시 샘플링 한 경우 인터넷에없는 모든 언어를 놓치게됩니다.
aquagremlin

1

모집단의 유한 샘플링은 히스토그램과 비슷한 방식으로 분포를 근사합니다. 재 샘플링하면 각 빈 개수가 변경되고 새로운 근사값을 얻습니다. 큰 계수 값은 원래 모집단 표본 집합 모두에서 작은 계수 값보다 적게 변동 합니다. 이것을 평신도에게 설명하고 있기 때문에, 큰 빈 수에 대해서는 경우 모두 거의 빈 수의 제곱근이라고 주장 할 수 있습니다 .

2080100(0.2×0.8)×1001:4

부트 스트랩이 "새로운"데이터를 발견하지 못한다는 점을 강조하는 것이 중요하다고 생각합니다. 이는 실제 확률이 표본 추출 된 표본에 의해 주어질 경우 표본 간 변동을 대략적으로 결정하는 편리한 비모수 적 방법 일뿐 입니다.


답변의 서식을 약간 변경했습니다. 적합하지 않은 경우 되돌릴 수 있습니다. 더 자세한 설명이 필요한 이유는 제곱근이있는 이유입니다.
Tim

1

고전적인 추론 통계에서 모집단의 추정량으로 표본을 모집단에 연결하는 이론적 실체는 표본 추출 분포 (집단에서 추출 할 수있는 모든 가능한 표본)입니다. 부트 스트랩 방법은 일종의 샘플링 분포 (여러 샘플에 기반한 분포)를 생성합니다. 물론, 그것은 최대 우도 방법이지만, 기본 논리는 전형적인 정규 분포 기반 통계에 대한 전통적인 확률 이론의 논리와 다르지 않습니다.


0

내 요점은 아주 작은 것입니다.

부트 스트랩은 연구 과제의 주요 전제를 계산 집약적으로 활용하기 때문에 작동합니다.

보다 구체적으로, 통계 또는 생물학, 또는 대부분의 비 이론적 과학에서, 우리는 개인을 연구하여 표본을 수집합니다.

그러나 그러한 표본들에서 우리는 다른 개인들에 대해 추론하여 미래에 또는 다른 표본으로 우리에게 제시하고 싶습니다.

부트 스트랩을 사용하면 샘플의 개별 구성 요소에 대한 모델링을 명시 적으로 작성함으로써 다른 개인에 대해 더 적은 추정 (일반적으로 적은 가정으로)을 추론하고 예측할 수 있습니다.


1
이것은 원시 데이터로 시작하는 다른 통계 절차와 부트 스트랩을 구별하지 않는 것 같습니다. 요약 통계 또는 비닝 빈도를 기반으로 한 절차와 절차를 구분하는 것만 같습니다.
whuber

0

초보자에게 설명 할 때 특정 예를 취하는 것이 도움이된다고 생각합니다 ...

일부 모집단에서 9 개의 측정 값을 무작위로 추출했다고 가정합니다. 표본의 평균은 60입니다. 전체 모집단의 평균도 60임을 확신 할 수 있습니까? 작은 샘플이 다를 수 있기 때문에 분명하지 않으므로 60의 추정치는 정확하지 않을 수 있습니다. 이와 같은 샘플이 얼마나 다양한 지 알아보기 위해 부트 스트랩이라는 방법을 사용하여 몇 가지 실험을 실행할 수 있습니다.

표본의 첫 번째 숫자는 74이고 두 번째 숫자는 65이므로, 하나의 아홉 번째 74, 한 번째 아홉 번째 65 등을 포함하는 큰 "척수"모집단을 상상해 봅시다. 이 모집단에서 무작위 표본을 추출하는 가장 쉬운 방법은 9의 표본에서 무작위로 숫자를 가져온 다음 교체하여 원래의 표본 9를 다시 가져 와서 다른 표본을 임의로 선택하는 등의 방법을 사용할 수 있습니다. "resample"of 9.이 작업을 수행 할 때 74가 전혀 나타나지 않았지만 다른 숫자 중 일부는 두 번 나타 났으며 평균은 54.4였습니다. (이것은 스프레드 시트 http://woodm.myweb.port.ac.uk/SL/resample.xlsx 에 설정되어 있습니다. 화면 하단의 부트 스트랩 탭을 클릭하십시오.)

이 방법으로 1000 개의 재 샘플을 취했을 때 평균은 44에서 80으로, 48에서 72 사이의 95 %로 다양했습니다. 이는 최대 16-20 개 단위의 오류가 있음을 나타냅니다. 모집단 평균을 추정하기 위해 크기 9의 샘플을 사용하는 경우 80은 20 단위 이상)입니다. 오류가 12 이하가 될 것이라고 95 % 확신 할 수 있습니다. 따라서 인구 평균이 48에서 72 사이에있을 것이라고 95 % 확신 할 수 있습니다.

여기에 여러 가지 가정이 있습니다. 명백한 것은 표본이 인구의 유용한 그림을 제공한다는 가정입니다. 경험에 따르면 표본이 합리적으로 큰 경우 (9는 약간 작지만 더 쉽게 만들 수 있습니다) 무슨 일인지 확인하십시오). http://woodm.myweb.port.ac.uk/SL/resample.xlsx 의 스프레드 시트를 사용하면 개별 재 샘플을보고, 1000 개의 재 샘플 히스토그램을 플롯하고, 더 큰 샘플을 실험하는 등의 작업을 수행 할 수 있습니다. 기사에 대한 자세한 설명이 있습니다. 에서 https://arxiv.org/abs/1803.06214 .


이것은 초등적이고 직관적이지만 부트 스트랩이 작동하는 이유가 아니라고 생각합니다.
Michael Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.