miura가 제공 한 답변은 완전히 정확하지 않으므로 후손에 대한이 오래된 질문에 대답하고 있습니다.
(2). 이것들은 매우 다릅니다. 경험적 cdf는 데이터를 생성 한 CDF (분포)의 추정치입니다. 구체적으로,이 확률 할당 이산 CDF 인 각 관측 데이터 포인트는 F ( X ) = 11/n에 대한 각X. 진정한 CDF이 추정의 수렴 : F (X)→F(X)=P(XI≤X)거의 확실하게 각X(사실 균일).F^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
통계량 의 샘플링 분포는 반복 실험에서 볼 수있는 통계량의 분포입니다. 즉, 실험을 한 번 수행하고 데이터 X 1 , … , X n을 수집합니다 . T 는 데이터의 함수입니다. T = T ( X 1 , … , X n ) . 이제, 실험하고, 수집 된 데이터의 반복 가정 X ' 1 , ... , X를 ' N . 새로운 샘플에서 T를 재 계산하면 T 'TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′n . 100 개의 샘플을 수집하면 T의 추정치가 100이됩니다. 이러한 관찰 T는 의 샘플링 분포를 형성 T를 . 진정한 분포입니다. 실험의 수는 무한대까지의 평균 수렴 갈수록 E ( T ) 및 그것의 분산 V R ( T를 ) .T′=T(X′1,…,X′n)TTTE(T)Var(T)
일반적으로 우리는 이와 같은 실험을 반복하지 않으며 인스턴스는 하나만 보입니다 . 의 분산 알아내는 T는 당신의 기본 확률 함수 모르는 경우 하나의 관찰에서 것은 매우 어렵 T 선험적. 부트 스트랩은의 샘플링 분포를 추정하는 방법입니다 T를 인위적으로의 새로운 인스턴스 계산하는 "새로운 실험"를 실행하여 T를 . 각각의 새로운 샘플은 실제로 원래 데이터의 리 샘플입니다. 원본 데이터보다 더 많은 정보를 제공한다는 것은 신비 롭고 정말 대단합니다.TTTTT
(1). 당신은 맞습니다 – 당신은 이것을하지 않을 것입니다. 저자는 파라 메트릭 부트 스트랩을 "분배를 알고 있다면 무엇을 할 것인지"로 설명하면서 분포 부트 스트랩에 동기를 부여하려고하지만, 분포 함수의 아주 좋은 추정값 인 경험적 CDF를 대체합니다.
예를 들어 검정 통계량 가 일반적으로 평균 0, 분산 1로 분포되어 있다고 가정합니다 . T 의 샘플링 분포를 어떻게 추정 할 수 있습니까? 분포를 알기 때문에 샘플링 분포를 추정하는 어리 석고 중복되는 방법은 R을 사용하여 10,000 개 정도의 표준 정규 확률 변수를 생성 한 다음 표본 평균 및 분산을 취하여이를 평균 및 샘플링 분포의 분산 T .TTT
우리 가 의 매개 변수를 사전에 알지 못하지만 정상적으로 분포되어 있다는 것을 알고 있다면 대신 경험적 cdf에서 10,000 개 정도의 샘플을 생성 하고 각각에 대해 T 를 계산 한 다음 샘플 평균을 취하는 것입니다 이러한 10,000 T 의 분산을 예측 값 T 의 추정치로 사용합니다 . 경험적 cdf는 실제 cdf를 잘 추정하기 때문에 샘플 매개 변수는 실제 매개 변수로 수렴해야합니다. 이것은 파라 메트릭 부트 스트랩입니다. 추정하려는 통계량에 모형을 배치합니다. 모형은 매개 변수에 의해 색인화됩니다 ( 예 : ( μ , σ )TTTT(μ,σ)ecdf에서 반복 샘플링으로 추정합니다.
(삼). 비모수 부트 스트랩은 가 정규 분포 되어 있다는 우선 순위를 알 필요조차 없습니다 . 대신, ecdf에서 반복 된 샘플을 추출하고 각각에 대해 T 를 계산 합니다. 10,000 개 정도의 샘플을 그리고 10,000 Ts를 계산 한 후 추정 히스토그램을 플로팅 할 수 있습니다. 이것은 T 의 샘플링 분포를 시각화 한 것입니다TTTT. 비모수 부트 스트랩은 샘플링 분포가 정상 또는 감마 등임을 나타내지 않지만 필요한 경우 정확하게 샘플링 분포를 추정 할 수 있습니다. 파라 메트릭 부트 스트랩보다 가정이 적고 정보가 적습니다. 모수 가정이 참일 때는 정확하지 않지만 거짓 일 때는 더 정확합니다. 각 상황에서 사용하는 것은 전적으로 상황에 달려 있습니다. 분명히 더 많은 사람들이 비모수 적 부트 스트랩에 익숙하지만 종종 약한 모수 적 가정은 완전히 다루기 어려운 모델을 추정하기에 좋게 만듭니다.