평균적으로 각 부트 스트랩 샘플에 대략 2/3의 관측치가 포함되는 이유는 무엇입니까?


42

나는 각각의 부트 스트랩 샘플 (또는 자루에 넣어 나무) 평균 약 포함 할 것을 주장에 걸쳐 실행 한 2/3 관측을.

그럴 가능성은 어떤에서 선택되는 것을 이해 n 에서 그립니다 n 교체가와 샘플 (11/n)n 약에 밖으로 작동하는 1/3 선택하지의 기회.

이 공식은 항상 제공하는 이유에 대한 수학적 설명은 무엇입니까 1/3 ?


10
나는 이것이 부트 스트랩 632 + 규칙에서 의 기원이라고 생각합니다 .632.
gung-복직 모니카

답변:


29

limn(11/n)n=e1
e1=1/e1/3

매우 작은 n 에서는 작동하지 않습니다 ( n예 : n=2 , (11/n)n=14 . 그것은 전달 13 에서 n=6 전달 0.35 에서 n=110.366 의해 n=99 . 당신이 넘어지면 n=11 , 1e 보다 더 나은 근사 13 .

여기에 이미지 설명을 입력하십시오

회색 점선은 13 ; 빨간색과 회색 선은 1e 있습니다.

공식적인 파생물 (쉽게 찾을 수 있음)을 보여주기보다는 (약간)보다 일반적인 결과가 유지되는 이유에 대한 개요 (직관적이고 수동적 인 논쟁)를 제공 할 것입니다.

ex=limn(1+x/n)n

(많은 사람들이 이것을 의 정의 로 생각하지만정의하는 것과 같은 더 간단한 결과로부터 증명할 수 있습니다 )exp(x)elimn(1+1/n)n

사실 1 : 이것은 거듭 제곱과 지수에 대한 기본 결과입니다.exp(x/n)n=exp(x)

사실 2 : 이 크면 이는 의 계열 확장에서 비롯 됩니다.nexp(x/n)1+x/nex

(이들 각각에 대해 더 자세한 주장을 할 수는 있지만 이미 알고 있다고 가정합니다)

(1)에서 (2)를 대체한다. 끝난. (이것이 좀 더 공식적인 논거로 작동하려면 사실 2의 나머지 항이 거듭 제곱 할 때 문제를 일으킬만큼 커지지 않음을 보여 주어야하기 때문에 약간의 노력이 필요합니다 . 그러나 이것은 직관입니다. 공식적인 증거보다는.)n

[대신, 에 대한 Taylor 시리즈 를 첫 번째 순서로 가져 가십시오 . 두 번째 쉬운 접근 방법은 의 이항 확장을 취하고 기간별로 한도를 취하여 에 대한 일련의 항을 제공하는 것입니다. .]exp(x/n)(1+x/n)nexp(x/n)

따라서 경우 대체하십시오 .ex=limn(1+x/n)nx=1

답변의 맨 위에limn(11/n)n=e1


gung이 의견에서 지적했듯이 질문의 결과는 632 부트 스트랩 규칙 의 기원입니다.

예를 들어

Efron, B. 및 R. Tibshirani (1997),
"교차 검증 개선 : .632+ 부트 스트랩 방법",
Journal of the American Statistical Association Vol. 92, No. 438. (6 월), 548-560 페이지


41

보다 정확하게는 각 부트 스트랩 샘플 (또는 포장 트리)에는 샘플의 가 포함됩니다.11e0.632

부트 스트랩 작동 방식을 살펴 보겠습니다. 원래 샘플 에 항목이 있습니다. 우리 는 다른 크기의 세트가 될 때까지이 원본 세트에서 교체품을 가져옵니다 .x1,x2,xnnn

따라서 첫 번째 추첨에서 하나의 항목 (예 : )을 선택할 확률 은 입니다. 따라서 해당 항목을 선택 하지 않을 확률 은 입니다. 그것은 첫 번째 추첨을위한 것입니다. 총 추첨이 있으며 모두 무승부이므로 추첨에서이 항목을 선택하지 않을 확률은 입니다.x11n11nn(11n)n

이제 이 점점 커질 때 어떤 일이 발생하는지 생각해 봅시다 . 일반적인 미적분학 트릭 (또는 Wolfram Alpha)을 사용하여 이 무한대로 가면서 한계를 취할 수 있습니다 . nn

limn(11n)n=1e0.368

항목 이 선택 되지 않았을 가능성이 있습니다. 한 항목에서 빼서 항목이 선택 될 확률을 찾으면 0.632가됩니다.


5

대체를 사용한 샘플링은 "성공"이 선택된 인스턴스 인 일련의 이항 시행으로 모델링 할 수 있습니다. 인스턴스에 대한 원래 데이터 세트의 경우 "성공"확률은 이고 "실패"확률은 입니다. 의 표본 크기에 대해 정확히 번 인스턴스를 선택할 확률은 이항 분포로 나타납니다.1 / n ( n - 1 ) / nn1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

부트 스트랩 샘플의 특정 경우에, 샘플 크기 는 인스턴스 수 과 같습니다 . 분들께 접근 무한대를, 우리가 얻을 :bnn

limn(1n)x(n1n)nx(nx)=1ex!

원래 데이터 세트가 큰 경우이 공식을 사용하여 부트 스트랩 샘플에서 인스턴스가 정확히 번 선택 될 확률을 계산할 수 있습니다 . 들면 의 확률은 , 또는 약 . 인스턴스가 적어도 한 번 샘플링 될 확률은 입니다., X = 0 1 / E 0.368 1 - 0.368 = 0.632xx=01/e0.36810.368=0.632

말할 것도없이, 필자는 펜과 종이를 사용하여 이것을 힘들게 도출했으며 Wolfram Alpha의 사용도 고려하지 않았습니다.


3

@retsreg의 답변에 추가하면 R의 수치 시뮬레이션을 통해 매우 쉽게 나타낼 수 있습니다.

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

이것은 계산으로 쉽게 볼 수 있습니다. 가능한 총 샘플 수는 몇 개입니까? n ^ n. 특정 값을 포함하지 않는 수는 몇 개입니까? (n-1) ^ n. 특정 값을 갖지 않는 샘플의 확률-(1-1 / n) ^ n, 한계의 약 1/3입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.