부트 스트랩은 추정기의 샘플링 분포에 얼마나 근접합니까?


29

최근에 부트 스트랩을 연구 한 결과, 여전히 퍼즐 문제가 있습니다.

모집단이 있고 모집단 속성 (예 : 을 알고 싶습니다 . 여기서 를 사용 하여 모집단을 나타냅니다. 이 는 예를 들어 인구 평균 일 수 있습니다. 일반적으로 모집단에서 모든 데이터를 얻을 수는 없습니다. 따라서 크기가 표본 를 그립니다.P θ Xθ=g(P)PθXN모집단에서 N 인. 단순성을 위해 iid 샘플이 있다고 가정 해 봅시다. 그런 다음 당신은 당신의 추정 얻을 θ = g ( X을 ) . 당신은 사용할 θ을 대한 추론을 할 θ 당신의 변화를 알고 싶습니다 그래서, θ를 .θ^=g(X)θ^θθ^

첫째,이 사실 의 샘플링 분포 θ는 . 개념적으로 모집단에서 많은 표본을 추출 할 수 있습니다 (각 표본의 크기는 N입니다 ). 때마다 당신의 실현해야합니다 θ = g ( X ) 다른 샘플을 각 시간 이후입니다. 그리고 결국, 당신은 복구 할 수 사실 의 유통 θ를 . 좋아, 적어도이 분포의 추정을위한 개념 벤치 마크 θ는 . 다시 말해 보겠습니다. 궁극적 인 목표는 다양한 방법을 사용하여 실제 분포 를 추정하거나 근사화하는 입니다.θ^Nθ^=g(X)θ^θ^θ^ .

자, 여기 질문이 있습니다. 일반적으로 N 개의 데이터 포인트 를 포함하는 하나의 샘플 만 있습니다 . 그럼 당신은이 샘플 여러 번에서 재 샘플링, 그리고 당신의 부트 스트랩 배포와 함께 올 것이다 θ . 내 질문은 : 가까이가이 부트 스트랩 분배 얼마나 진실 의 샘플링 분포 θ ? 그것을 정량화하는 방법이 있습니까?XNθ^θ^


1
이 관련성이 높은 질문 에는이 질문을 복제 할 수있을 정도로 풍부한 추가 정보가 포함되어 있습니다.
시안

먼저 내 질문에 신속히 답변 해 주셔서 감사합니다. 이 웹 사이트를 처음 사용하는 것입니다. 나는 내 질문이 누군가의 솔직한 관심을 이끌어 줄 것으로 기대하지 않았다. 여기에 작은 질문이 있습니다. 'OP'는 무엇입니까?
@Silverfish

@Chen Jin : "OP"= 원본 포스터 (즉, 당신!). 내가 동의하는 약어 사용에 대한 사과는 잠재적으로 혼란 스럽다.
Silverfish

1
더 밀접하게 당신의 진술과 일치하도록 내가 제목을 편집 한 "내 질문은 : 가까이의 진정한 분포이 얼마나 θ를 ?을 정량화 할 수있는 방법이 있습니까?" 내 편집 내용에 의도가 반영되지 않았다고 생각되면 되 돌리십시오. θ^
Silverfish

@Silverfish 정말 감사합니다. 이 포스터를 시작할 때 실제로 내 질문에 대해 잘 모르겠습니다. 이 새로운 타이틀이 좋습니다.
KevinKim

답변:


20

정보 이론에서 일반적인 방법은 다른 하나 개의 분포가 사용하는 것이 얼마나 "가까운"정량화하는 KL-발산

휴스턴 공항의 비행기 도착 지연 ( hflights 패키지)- 매우 치우친 롱테일 데이터 세트로 이를 설명해 보겠습니다 . 하자 θ는 평균 추정합니다. 첫째, 우리의 샘플링 분포를 찾을 θ , 그리고 다음 부트 스트랩 배포 θ를θ^θ^θ^

데이터 세트는 다음과 같습니다.

enter image description here

진정한 평균은 7.09 분입니다.

먼저, 우리는 샘플링 분포를 얻기 위해 일정한 수의 샘플을 수행합니다. 우리는 하나 개의 샘플을 채취하고 여기에서 많은 부트 스트랩 샘플을 채취.θ^

예를 들어, 표본 크기 100과 5000 반복을 갖는 두 분포를 살펴 보겠습니다. 우리는 시각적으로 이러한 분포가 상당히 떨어져 있으며 KL 분기는 0.48입니다.

enter image description here

그러나 표본 크기를 1000으로 늘리면 수렴되기 시작합니다 (KL 발산은 0.11 임)

enter image description here

그리고 표본 크기가 5000 일 때 매우 가깝습니다 (KL 발산은 0.01 임)

enter image description here

이것은 물론, 당신이 얻을 수있는 부트 스트랩 샘플에 따라 달라집니다,하지만 난 당신이 KL 발산 우리가 표본의 크기를 증가, 그리고 따라서 부트 스트랩 분포로 내려가는 것을 볼 수 있다고 생각 θ는 샘플 분포를θ^KL 발산의 관점에서. 확실하게, 몇 개의 부트 스트랩을 시도하고 KL 발산의 평균을 취할 수 있습니다.θ^

이 실험의 R 코드는 다음과 같습니다. https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1이며 이는 주어진 샘플 크기 (예 : 100)의 경우 부트 탭 바이어스가 크고 불가피 할 수 있음을 보여줍니다.
amoeba는 Reinstate Monica

이거 대단해! 그래서의 분포하도록하기 위해 θ 근처의 TRUE 분포 될 부트 스트랩에서를 θ , 우리는 큰 샘플 크기 필요 N의 권리를? 고정 된 표본 크기의 경우 부트 스트랩에서 생성 된 분포는 @amoeba가 언급 한 TRUE 분포와 매우 다를 수 있습니다. θ^θ^N
KevinKim

내 다음 질문은 : 충분히 크게 고정하면 부트 스트랩 2 개를 수행했습니다. 하나는 B = 10 번 재 샘플링하고 다른 하나는 B = 10000 입니다. 의 분포의 차이 무엇 θ 이 2 개 부트 스트랩 나오는가? 우리가 해결할 때이 질문은 본질적으로 요구하고있다 N을 하는 역할 무엇을, B 의 분포를 생성하는 θ가 . @GrigorevNB=10B=10000θ^NBθ^
KevinKim

1
@Chen하지만, 분포θ는 당신이 재 샘플링, 권리를 수행하여 얻을 수 있다는 것이 무엇입니까? 따라서 B = 10B = 10000 의 차이점은 분포를 구축하기 위해 10 개의 숫자를 얻는다는 것입니다 (정보가 많지 않더라도 표준 편차의 추정치가 그리 신뢰할 수는 없습니다), 다른 경우에는 10000 개의 숫자 를 얻는다는 것입니다. 신뢰할 수 있음). θ^B=10B=100001010000
amoeba는 Reinstate Monica

1
@ 첸, 나는 당신이 약간 혼란 스럽거나 귀하의 의견에 가 무엇인지에 대해 매우 명확하지 않다고 생각합니다. 5 번 리샘플링 하면 5 개의 숫자 세트를 얻게 됩니다. 배포판은 어떻습니까? 숫자 세트입니다! 이 숫자 F B 분포 라고 불리는 것에서 나옵니다 . 숫자가 많을수록 F B를 더 잘 추정 할 수 있습니다 . F555FBFB
amoeba는 Reinstate Monica

23

부트 스트랩이다 진정한 CDF에 경험적 CDF의 융합에 기반 F N ( X ) = 수속을(같이 N이 무한대) F ( X ) 마다에 대해 X . 따라서 부트 스트랩의 분포의 수렴 θ ( X 1 , ... , X N ) = g ( F , N는 ) 속도에서 발생하는 수렴에 의해 구동된다

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n) 부터x대해 nn x에도이 속도 불구하고 자동으로 전송하지 않는 메일을 제한g( F의 N). 실제로, 근사의 변동성을 평가하기 위해, 당신의 분포의 부트 스트랩 평가를 생성 할 수 있습니다g을( F )
{에프^(엑스)에프(엑스)}거리(0,에프(엑스)[1에프(엑스)])
(에프^)(에프^) 이중 부트 스트랩, 즉 부트 스트랩 부트 스트랩 평가.

갱신 사항으로, 여기 클래스의 그림 I의 사용이다 여기에 이미지 설명을 입력하십시오 좌변이 참 CDF 비교 경험적 CDF와 F N 에 대한 N = 100 명 관찰과 우 플롯 (250) 좌변의 복제본, 250 개 가지 샘플, 순서는 cdf 근사값의 변동성을 측정합니다. 이 예에서 나는 진실을 알고 있으므로 가변성을 평가하기 위해 진실로부터 시뮬레이션 할 수 있습니다. 현실적인 상황에서, 나도 몰라 F를 따라서 나는부터 시작해야 F N 유사한 그래프를 생성하는 대신.에프에프^=100250에프에프^

추가 업데이트 : 경험적 CDF에서 시작할 때 튜브 그림은 다음과 같습니다. 여기에 이미지 설명을 입력하십시오


5
이 답변의 핵심은 부트 스트랩이 큰 샘플 근사치이기 때문에 작동 한다는 것입니다 . 나는이 점이 충분히 강조되지 않았다고 생각합니다
shadowtalker

2
"일반적으로 자주 강조"
shadowtalker

에프^=100

3
에프에프

@ Xi'an 아주 좋은! 두 번째와 세 번째 숫자를 하나의 숫자로 결합 할 수 있다면 더 좋을 것입니다.
KevinKim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.