원래 샘플보다 작은 부트 스트랩 샘플을 사용할 수 있습니까?


12

부트 스트랩을 사용하여 N = 250 개 기업 및 T = 50 개월 인 패널 데이터 세트의 추정 된 매개 변수에 대한 신뢰 구간을 추정하려고합니다. 파라미터의 추정은 칼만 필터링 및 복잡한 비선형 추정의 사용으로 인해 계산 비용이 많이 든다 (몇 일의 계산 일). 따라서 부트 스트랩을위한 기본 방법이더라도 원래 샘플에서 M = N = 250 회사의 B (수백 이상) 샘플을 추출하고 매개 변수 B 시간을 계산하는 것은 계산할 수 없습니다.

따라서 부트 스트랩 샘플 (N = 250의 전체 크기가 아닌)에 더 작은 M (예 : 10)을 사용하고 원래 회사의 대체품으로 임의로 추출 한 다음 모델 매개 변수의 부트 스트랩 추정 공분산 행렬을 1 로 스케일링합니다1NM전체 표본에서 추정 된 모형 모수에 대한 공분산 행렬을 계산하려면 M (위의 예에서는 1/25)입니다.

그런 다음 정규 가정을 기반으로 원하는 신뢰 구간을 근사하거나 유사한 절차를 사용하여 규모가 작은 표본에 대한 경험적 구간을 추정 할 수 있습니다 (예 : 1 배 축소).1NM .

이 해결 방법이 의미가 있습니까? 이것을 정당화하는 이론적 인 결과가 있습니까? 이 과제를 해결하기위한 대안이 있습니까?

답변:


4

이 질문은 오래 전에 요청되었지만 나중에 누군가가 그것을 발견 할 경우를 대비하여 답변을 게시하고 있습니다. 요컨대, 대답은 그렇습니다. 많은 설정 에서이 작업을 수행 할 수 있으며 √에 의해 샘플 크기 변경을 수정하는 것이 정당합니다.MN . 이 방법은 보통이라고MN부트 스트랩, 그리고 대부분의 설정에서 작동하는``전통 '' '부트 스트랩가하는뿐만 아니라 일부 설정하는이처럼 없습니다.

그 이유는 많은 부트 스트랩 일관성 인수가 형식 1의 추정기를 사용하기 때문입니다.1N(TNμ), 여기서X1,,XN은 랜덤 변수이고μ는 기본 분포의 일부 모수입니다. 예를 들어 표본 평균의 경우TN=1Ni=1NXiμ=E(X1).

부트 스트랩 일관성 증명이 아니라, 그 주장 N , 주어진 어떤 유한 샘플 {x1,,xN} 과 점 추정 연관된 μ N = T N ( x는 1 , ... , X N을 ) , μ^N=TN(x1,,xN)

(1)N(TN(X1,,XN)μ^N)DN(TN(X1,,XN)μ)
Xi실제 기본 분포로부터 그려Xi관련하여 그려는{x1,,xN}.

그러나 우리는 길이가 M<N 더 짧은 샘플을 사용할 수도 있고 추정기를 고려할 수도 있습니다.

(2)M(TM(X1,,XM)μ^N).
그것은 같은 것을 밝혀M,N, 추정기 () (단, 대부분의 설정에 상기와 같은 제한적인 분포를 갖는다이야1) 보유 어떤 곳 그렇지. 이 경우 (1)과 (2)는 동일한 제한 분포를 가지므로 보정 계수√를유발합니다.2112MN예를 들어 표본 표준 편차에서 N 입니다.

이 인수는 모두 점근 적 이며 한계 M,N 에서만 유지됩니다 . 이것이 작동하려면 M 너무 작게 선택하지 않는 것이 중요 합니다. 최상의 이론적 결과를 얻기 위해 N 의 함수로 최적의 M 을 선택하는 방법에 대한 이론 (예 : 아래의 Bickel & Sakov)이 있지만 계산 리소스가 결정 요인이 될 수 있습니다.N

어떤 직관의 경우 : 많은 경우에, 우리는이 μ N D μN , 그래서 μ^NDμN

(3)N(TN(X1,,XN)μ),
같은 비트 생각할 수m에서n와 부트 스트랩m=Nn=(I 피 표기 혼란 하부 케이스를 사용하고) . 이러한 방법으로, 분포 (에뮬레이션사용)M을밖으로N의와 부트 스트랩M<N은(기존의 것보다 할 수있는 '더``옳은 일N을밖으로N3MNM<NNN) 종류. 귀하의 경우 추가 보너스는 계산 비용이 적게 든다는 것입니다.

언급했듯이 Politis와 Romano가 주요 논문입니다. 나는 BICKEL 등 (1997)의 멋진 개요를 검색 할 MN 부트 스트랩뿐만 아니라.

출처 :

PJ Bickel, F Goetze, WR van Zwet. 1997. n 개 미만의 관측치 리샘플링 : 이익, 손실 및 손실에 대한 구제. Statistica Sinica.

PJ Bickel, Sakov. 의 선택에 2008 m 에서 m 의 ouf n 극값을위한 부트 스트랩과 자신감을 경계입니다. Statistica Sinica.


3

주제에 대한 자세한 내용을 읽은 후 이러한 유형의 신뢰 구간 추정을 수행 할 수있는 "서브 샘플링"에 이론이 확립 된 것 같습니다. 주요 참고 문헌은 "Politis, DN; Romano, JP (1994). 최소 가정 하의 하위 표본을 기반으로 한 대규모 표본 신뢰 영역입니다. Annals of Statistics, 22, 2031-2050."

아이디어는 M <N 크기의 샘플을 N 개의 초기 데이터 포인트 (제 경우 시리즈)에서 각 샘플에 대해 "교체하지 않고"(그러나 B 크기가 다른 여러 샘플에 대한 교체 제외) 추출하고 신뢰 구간을 추정하는 것입니다. 이 샘플과 일반적인 부트 스트랩 방법을 사용하여 관심 매개 변수. 그런 다음 모수의 변화에 ​​따라 모수의 기본 분포 변동의 변화율을 기반으로 신뢰 구간을 조정합니다.이 비율은 많은 공통 설정에서 1 / M이지만 몇 가지 다른 M으로 절차를 반복하면 실험적으로 추정 할 수 있습니다 백분위 수 범위의 크기 변화를 살펴보십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.