부트 스트랩 : 과적 합 문제


14

대체로 원래 관측치 로부터 각각 크기 의 샘플을 추출 하여 소위 비모수 적 부트 스트랩을 수행한다고 가정합니다 . 이 절차는 경험적인 cdf에 의한 누적 분포 함수를 추정하는 것과 같습니다.Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

그리고 추정 된 cdf 시간 으로부터 관측치를 연속 으로 시뮬레이션함으로써 부트 스트랩 샘플을 획득하는 단계 를 포함한다.nB

내가 이것에 옳다면 경험적 cdf에 약 N 개의 매개 변수가 있기 때문에 과적 합 문제를 해결해야합니다. 물론 무증상으로 모집단 cdf에 수렴하지만 유한 샘플은 어떻습니까? 예를 들어 100 개의 관측치가 있고 cdf 를 두 개의 매개 변수를 사용하여 로 추정 할 경우 경보가 발생하지 않습니다. 그러나 매개 변수의 수가 100 개까지 올라가면 전혀 합리적이지 않습니다.N(μ,σ2)

하나는 표준 다중 선형 회귀를 이용하는 경우도 마찬가지로, 오차항의 분포는 다음과 같이 추정되는 . 만약 잔차를 부트 스트랩으로 전환하기로 결정했다면, 이제는 에러 항 분포를 처리하기 위해 사용 된 약 n 개의 매개 변수 가 있다는 것을 알아야합니다 .N(0,σ2)n

이 문제를 명시 적으로 해결하는 출처로 안내해 주시거나 제가 잘못 생각한 경우 왜 문제가되지 않는지 말씀해주십시오.


이 "비모수 적"부트 스트랩을 보는 한 가지 방법은 정규성에 대한 모수 적 가정을 일부 유한 한 유한 모집단 (예 : 기록 인구 조사의 평균)에서 "관심 수량"으로 변환하는 것입니다. 실제로,이 버전의 부트 스트랩은 다항식 모델의 "최대 가능성"추정값을 기반으로하며 모집단의 각 "유형"에 대해 1 개의 범주가 있음을 보여줄 수 있습니다.
probabilityislogic

답변:


2

나는 당신의 질문을 올바르게 이해하고 있는지 확실하지 않습니다 ... 나는 당신이 수렴 순서에 관심이 있다고 가정하고 있습니까?

경험적인 cdf에는 약 N 개의 매개 변수가 있기 때문입니다. 물론 무증상으로 모집단 cdf에 수렴하지만 유한 샘플은 어떻습니까?

부트 스트랩 이론에 대한 기본 사항을 읽었습니까? 문제는 그것이 (수학적으로) 꽤 빨리 야생화된다는 것입니다.

어쨌든, 나는 볼 것을 권장합니다

반 데르 바트 (Van der Vaart) "증식 통계"장 23.

홀 "부트 스트랩 및 Edgeworth 확장"

기본 사항.

Chernick "부트 스트랩 방법"은 수학자보다는 사용자를 대상으로하지만 "부트 스트랩 실패 위치"섹션이 있습니다.

고전적인 Efron / Tibshirani는 부트 스트랩이 실제로 작동하는 이유를 거의 알지 못합니다 ...


4

N(μ,σ2)

직관적으로, 유한 샘플에서 부트 스트래핑하면 기본 분포의 두꺼운 꼬리를 과소 평가합니다. 유한 분포는 유한 분포를 가지므로, 실제 분포의 범위가 무한하거나 더 나쁜 꼬리를 가지더라도 분명합니다. 따라서 부트 스트랩 통계의 동작은 원래 통계만큼 "와일드"하지 않습니다. (모수) 회귀 분석에서 너무 많은 모수로 인한 과적 합을 피하는 것과 마찬가지로 소수 모수 정규 분포를 사용하여 과적 합을 피할 수 있습니다.

주석 응답 편집 : cdf를 추정하기 위해 부트 스트랩이 필요하지 않습니다. 일반적으로 부트 스트랩을 사용하여 일부 통계의 분포 (필수, 모멘트 등을 포함하여 가장 넓은 의미로)를 얻습니다. 따라서 과도하게 맞지 않는 문제가있을 필요는 없습니다 ( "유한 데이터로 인한 추정치가 실제 야생 분포로 볼 때와 비교하면 너무 멋져 보입니다"). 그러나 (인용 된 논문과 아래 Frank Harrel의 의견에 따르면), 그러한 과적 합 문제를 얻는 것은 동일한 통계의 모수 적 추정 문제와 관련이 있습니다.

따라서 귀하의 질문이 암시하는 것처럼 부트 스트랩은 모수 추정 문제에 대한 만병 통치약이 아닙니다. 부트 스트랩이 전체 분포를 제어하여 모수 문제를 해결하는 데 도움이되기를 바랍니다.


1
부트 스트랩에 포함 된 유효 매개 변수의 수가 샘플 크기와 거의 같다는 점에서 부트 스트랩의 작동 방식은 아직 확실하지 않습니다. 부트 스트랩의 궁극적 인 목표는 전체 분포를 추정하는 것이 아니라 분포의 1-2 통계를 추정하는 것입니다. 따라서 부트 스트랩에 포함 된 경험적 cdf가 과도하게 적합하더라도 1-2 추정 통계는 어떻게 든 괜찮습니다. 내가 알았어?
James

4
유효 매개 변수의 수는 샘플 크기와 다릅니다. 경험적 누적 분포 함수의 분산은 분포에 추정 할 4 개의 알려지지 않은 모수가있을 때 분포에 대한 모수 적합의 분산과 거의 같습니다. 한 가지 이유는 경험적 CDF 추정치가 오름차순이어야하기 때문입니다.
Frank Harrell

좋은 지적. 당신은 참조를 제공 할 수 있습니까?
James

나는 하나가 있었으면 좋겠다. 나는 과거에 Monte Carlo 시뮬레이션에 의해 이것을 보여주었습니다.
Frank Harrell

2에프^에프에프^(엑스)에프(엑스)

0

직감의 한 원인은 iid 데이터에 대해 파라 메트릭 CDF와 ECDF의 수렴 률을 비교하는 것입니다.

1/2

Berry-Esseen은 단일 평균에 대한 샘플링 분포의 CDF가 에서 정규 한계로 수렴합니다.1/2속도 : https://en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem는 (이하지 우리가 원하는 아주 것입니다 --- 우리는 어떻게 예상 파라 메트릭 CDF에 대해 궁금해하는 데이터의 수렴이 아닌 약 샘플링 분포.하지만 가장 간단한 이상적인 경우, 데이터가 보통이고σ 알려진 우리는 단지 추정해야 μ, 데이터의 CDF에서 수렴 율이 평균의 CDF와 같아야한다고 생각합니다.)

따라서 경험적 CDF를 사용하여 CDF를 추정하거나 샘플 평균 유형 추정기를 사용하여 직접 매개 변수를 추정하는지 여부에 관계없이 더 많은 샘플을 수집해야하는 비율은 동일합니다. 이것은 "유효 매개 변수의 수가 샘플 크기와 동일하지 않다"는 Frank Harrell의 의견을 정당화하는 데 도움이 될 수 있습니다.

물론, 그것은 전체 이야기가 아닙니다. 비율은 다르지 않지만 상수는 다릅니다. 그리고 ECDF보다 비모수 적 부트 스트랩에 훨씬 더 많은 것이 있습니다. 일단 ECDF를 평가 한 후에 여전히 작업수행 해야 합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.