바이어스의 부트 스트랩 추정치는 언제 유효합니까?


31

부트 스트래핑이 추정기의 편향 추정치를 제공 할 수 있다고 종종 주장된다.

경우 t는 어떤 통계에 대한 추정이며, ~ 을 t (와 부트 스트랩 복제본 I { 1 , , N은 } 다음 바이어스 부트 스트랩 추정치 임) B I S t1t^t~ii{1,,N}

biast1Nit~it^
동요되는 지점으로, 매우 간단하고 강력한 보인다.

나는 통계의 편견이없는 통계가 없다면 이것이 어떻게 가능한지에 대해 머리를 맞출 수 없다. 예를 들어 추정기가 관측치와 독립적 인 상수를 반환하면 위의 치우침 추정값은 분명히 유효하지 않습니다.

이 예는 병리학 적이지만 부트 스트랩 추정이 합리적임을 보장 할 추정기 및 분포에 대한 합리적인 가정이 무엇인지 알 수 없습니다.

공식적인 참고 문헌을 읽으려고했지만 통계학 자나 수학자가 아니므로 아무것도 명확하지 않습니다.

견적이 유효 할 것으로 예상되는 사람에 대한 높은 수준의 요약을 제공 할 수 있습니까? 당신이 주제에 대한 좋은 언급을 알고 있다면 그것은 또한 좋을 것입니다.


편집하다:

추정기의 부드러움은 종종 부트 스트랩이 작동하기위한 요구 사항으로 인용됩니다. 변환의 일종의 국소 가역성이 필요할 수도 있습니까? 상수 맵은 분명히 그것을 만족시키지 않습니다.


2
상수 추정기는 해당 상수의 편향 추정치이므로 바이어스의 부트 스트랩 추정기가 0 인 것은 당연합니다.
시안

답변:


4

설명하는 문제는 타당성이 아닌 해석 문제입니다. 상수 추정기의 부트 스트랩 바이어스 추정값이 유효하지 않습니다. 실제로 완벽합니다.

바이어스 부트 스트랩 추정값 추정기 사이 θ = S ( X ) 및 파라미터 θ = t ( F ) , 여기서, F는 미지의 분포이며, X 의 샘플 F를 . 함수 t ( F ) 는 모집단이 있다면 원칙적으로 계산할 수있는 것입니다. 언젠가는 우리가 받아 ( X ) = t ( F ) , 플러그인의 추정 t (θ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^), 경험적 분포 사용하여 F 의 장소에서 F를 . 이것은 아마도 위에서 설명한 것입니다. 모든 경우에 바이어스 부트 스트랩 추정은 b를 I A는 s의 F = E F [ S ( X * ) ] - t ( F ) , 여기서, X *는 발 스트랩 샘플이다 X는 .t(F)F^F

biasF^=EF^[s(x)]t(F^),
xx

상수 완벽한 플러그인 같은 일정에 대한 추정치이다 :c 인구가 샘플 ~ F 에 근접, 경험적 분포, F를 . 평가할 수 있다면 t ( F ) = C를 , 당신은 얻을 것 C를 . 당신이 플러그인 추정 계산하면 t ( F를 ) = c를 당신은 또한 얻을 C를 . 예상대로 편견이 없습니다.FF^Ft(F)=cct(F^)=cc

플러그인 추정에 바이어스가 잘 알려진 경우 따라서, 추정 분산의 베셀의 보정이다. 아래에서 이것을 보여줍니다. 부트 스트랩 바이어스 추정치는 나쁘지 않습니다. t(F^)

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

대신 를 모집단 평균과 s ( x ) = c로 취할 수 있습니다. 대부분의 경우 명확한 편견이 있어야합니다. t(F)s(x)=c

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

다시 한 번 부트 스트랩 추정치는 나쁘지 않습니다.


가 상수 일 때 바이어스의 부트 스트랩 추정값이 0이라는 문제로 다른 답변이 필요한 것으로 보이므로이 답변을 추가했습니다 . 나는 그것을 믿지 않습니다. t
einar

귀하의 답변과 데모가 마음에 들지만 귀하의 정의가 옳지 않다고 생각합니다. "바이어스 부트 스트랩 추정치는 표본의 함수와 모집단에서 평가 된 동일한 함수 사이의 바이어스 추정치입니다." 작성하는 내용이 잘 정의되어 있지만 이것이 정의라면 부트 스트랩을 사용하여 모집단 분산 추정량으로 표본 분산의 편향을 추정 할 방법이 없습니다.
DavidR

@DavidR 당신이 옳습니다, 의견 주셔서 감사합니다. 답변을 업데이트했습니다.
einar

나는이 글을 많이 좋아한다! 내 유일한 질문은 "부츠의 부트 스트랩 추정"에 관한 것입니다. 나는 당신이 부트 스트랩 샘플에 대해 기대하고 있기 때문에 견적의 실제 편향 (그러나 실제 분포가 아닌 경험적 분포에 대한 것)이라고 생각합니다. 부트 스트랩 추정기가 B 부트 스트랩 샘플에 대한 유한 합이라고 생각합니까?
DavidR

1
@DavidR 나는 당신이 기뻐요! (당신이 사용하기 때문에 내가보고하는 것은 기술적으로 바이어스의 부트 스트랩 추정치 대신에 θ 와의 부트 스트랩 기대 ( ) 를 통해 자사의 기대 대신에 F ). 그러나 대부분의 실제 응용 프로그램에서 E F는 [ ( X * ) ] 난치성이며, 당신이 말한대로 우리는 몬테 카를로하여 대략. t(F^)θs()FEF^[s(x)]
einar

3

당신은 하나의 실수를 저지르고 어쩌면 이것이 혼란스러운 이유 일 수 있습니다. 당신은 말한다 :

내 추정기가 단순히 관측치와 독립적 인 상수를 반환하면 위의 치우침 추정값은 분명히 유효하지 않습니다.

부트 스트랩은 방법이 얼마나 바이어스되어 있는지가 아니라 데이터가 바이어스되어있는 경우 일부 기능으로 얻은 결과의 양에 관한 것 입니다.

데이터 분석을 위해 적절한 통계 방법을 선택하고이 방법의 모든 가정을 충족하고 수학을 올바르게 수행 한 경우 통계 방법은 데이터사용하여 얻을 수있는 "최상의"추정치를 제공해야합니다 .

부트 스트랩의 개념은 모집단에서 사례를 샘플링하는 것과 같은 방식으로 데이터에서 샘플링하는 것이므로 샘플링의 일종의 복제입니다. 이를 통해 가치의 근사 분포 (Efrons 단어 사용) 를 얻을 수 있으므로 추정치의 편차를 평가할 수 있습니다.

그러나 내가 주장하는 것은 귀하의 예가 오도의 소지가 있으므로 부트 스트랩을 논의하기위한 가장 좋은 예는 아니라는 것입니다. 양쪽에 오해가 있었으므로 답을 업데이트하고 내 요점을 설명하기 위해 좀 더 공식적인 방법으로 쓰겠습니다.

대한 바이어스 θ 진정한 가치의 존재 추정치 θ는 다음과 같이 정의된다θ^θ

bias(θ^n)=Eθ(θ^n)θ

어디에:

θ^n=g(x1,x2,...,xn)

여기서 는 추정값입니다.g()

Larry Wasserman이 자신의 저서 "모든 통계"에서 다음과 같이 언급 한 것처럼 :

추정기의 합리적인 요구 사항은 점점 더 많은 데이터를 수집 할 때 실제 모수 값으로 수렴해야한다는 것입니다. 이 요구 사항은 다음 정의에 의해 정량화됩니다.
6.7 정의. 점 추정기 θ N 매개 변수의 θ는 것입니다 일관 경우 θ N P θ .θ^nθθ^nPθ

의 일정한 기능되는 상수 추정, : g ( X ) = λ 않습니다 되지 는 데이터의 독립과 관찰의 증가가 진정한 가치에 접근하지 것이기 때문에이 요구 사항을 충족 θ를 하지 않는 순수한 행운 또는 매우 견고한 가진 ( λ대한 사전 가정 은 λ = θ이다 ).xg(X)=λθλλ=θ

상수 추정은 합리적인 추정되는위한 기본 요구 사항을 충족하지 않습니다 때문에,이다 그것의 바이어스를 추정하는 것은 불가능 하기 때문에 θ n은 접근하지 않는 θ 도 함께 N . 부트 스트랩과 다른 방법으로는 불가능하므로 부트 스트랩에는 문제가 없습니다.θ^nθn


5
이 답변이 혼란을 심어줄 것 같습니다. 상수 추정기는 대부분의 정의에 따른 추정기이며 경우에 따라 허용 가능한 추정기이기도합니다. 귀하의 질문은 샘플링 바이어스와 추정 바이어스를 혼동하여 거의 모든 독자를 혼란스럽게합니다. "최선의 추정치"에 대한 당신의 단락은 훌륭하지만 "최상의"를 측정하는 방법에 대한 본질적인 질문을 요구합니다. 바이어스는 그 구성 요소 중 하나 일뿐입니다.
whuber

OP에 대답 할 수있는 자격이 없지만 Whuber가 중요한 점이 있습니다. 또한 모집단이 견적자를 의미하는 것이 유효합니까? 마지막 문장과 관련하여 boostrap은 샘플링 방법이 아니라 분석중인 추정기의 바이어스 추정치를 제공한다고 생각합니다.
mugen December

부트 스트래핑은 체계적인 오류를 감지 할 수 없지만 적어도 어느 정도는 통계적 편향을 감지해야한다는 것을 알고 있습니다. 나는 당신의 요점이 둘을 구별하는 미묘함에 관한 것이라고 생각하지만, 그것은 여전히 ​​나에게 불분명합니다. 당신은 내가 들어 본 적이없는 편견의 개념에 대해 말하고있는 것 같습니다-견적자가 아니라 데이터에 대해. 이 편견 개념의 공식적인 정의는 무엇입니까?
Bootstrapped

3
λθ λθ

8
θ^0n<10100

3

t

biast1Nit~it

경험적 분포에서 평가 된 실제 통계량 을 사용하려고합니다 (원본 표본이 유한 세트이므로 종종 쉽습니다). 경우에 따라 이들은 같을 수도 있지만 (예를 들어, 경험적 평균이 표본 평균과 동일 함), 일반적으로는 그렇지 않습니다. 그것들이 다른 경우를 하나 제시했지만, 병리학 적 덜 분산 된 예는 분산에 대한 일반적인 편견 추정기입니다. 유한 분포에 적용될 때 모집단 분산과 동일하지 않습니다.

통계가 doesn't make sense on the empirical distribution (for example, if it assumes a continuous distribution), then you shouldn't use vanilla bootstrapping. You can replace the empirical distribution with a kernel density estimate (smooth bootstrap), or if you know that the original distribution lies in some particular family, you can replace the empirical distribution with the maximum likely estimate from that family (parametric bootstrap).

TL/DR: The bootstrap method is not magical. To get an unbiased estimate of the bias, you need to be able to compute the parameter of interest exactly on a finite distribution.


1
I am unsure about the meaning of your notation. According to these lecture notes by Pete Hall (UC Davis), these lecture notes by Cosma Shalizi (CMU), and this page of Efron's and Tibshirani's book seem to indicate that what I have it not wrong, just not fully general (i.e., I am using the plug in estimator here, but that is not necessary).
Bootstrapped

Efron and Tibshirani give the same formula as me, with a different notation. Pete Hall seems to be making the assumption that t=t^: On page 11, he replaces θ(F1) (which is what I called t with θ^ without comment. Cosma Shalizi's discussion of pivots in section 2.2 also seems to implicitly assume that t^ is the actual value of t on the empirical distribution (t). I think all of your confusion is just caused by sloppiness in these lecture notes.
Evan Wright

Fair enough, but I don't think the notation resolves the issue or addresses the question. In particular, I know the constant estimator has to break down (bootstrap is not magical). The example of the variance works even if we make the assumption that t=t^ (i.e., the bootstrap bias estimate works). What about other estimators for other statistics? What are sufficient conditions for the bootstrap bias estimate to work? How does the constant estimator violate these conditions?
Bootstrapped

1
That's my point: this fixed version gives the right answer even for the constant estimator. Suppose you're trying to estimate the population mean, but you choose an estimator that just always guesses 0. Then t will be the actual mean of the sample, rather than 0. So as N, the bias estimate goes to minus the sample mean, which is reasonable and has expected value equal to the true bias.
Evan Wright

Then it seems I don't quite understand the definition of t. The definition in Efron and Tibshirani (in the page I link to above) seems to imply that it is the plug in estimate based on the empirical distribution, but the operational meaning of that escaped me. Say I have some high dimensional data that I want to fit to some non-linear function, and I want to know if my estimate of the non-linear function parameters is biased or not. What is t in this case? The definition of t~i seems clear to me, but t is nebulous.
Bootstrapped

0

I find it useful to think about the bootstrap procedures in terms of the functionals of the distributions they operate on -- I gave an example in this answer to a different bootstrap question.

The estimate you gave is what it is -- an estimate. Nobody says it does not suffer from problems that statistical estimates may have. It will give you a non-zero estimate of bias for the sample mean, for instance, which we all know is unbiased to begin with. One problem with this bias estimator is that it suffers from sampling variability when the bootstrap is implemented as Monte Carlo rather than a complete enumeration of all possible subsamples (and nobody that that theoretical bootstrap in practice, anyway).

As such, a Monte Carlo implementation of the bootstrap is unfixable, and you have to use a different bootstrap scheme. Davison et. al. (1986) demonstrated how to create a different bootstrap scheme that restricts the random draws to produce balanced samples: if you create B bootstrap replicates, then each of the original elements needs to be used exactly B times for the first-order balance. (The second order balance that works better for the second moments of the estimands, is further discussed by Graham et. al. (1990).)


7
I think Bootstrapped's original question is orthogonal to the issue of Monte Carlo variability. Even if we take the number of bootstrap replications to infinity, the formula in the question will give a zero estimate for the bias of a constant estimator, and will give a nonzero estimate for the bias of the usual unbiased estimate of variance.
Evan Wright
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.