부트 스트랩 핑 vs 베이지안 부트 스트랩 핑 개념적으로?


21

베이지안 부트 스트랩 프로세스가 무엇인지, 그리고 일반 부트 스트랩과 어떻게 다른지 이해하는 데 어려움을 겪고 있습니다. 그리고 누군가가 직관적이고 개념적인 검토와 두 가지를 비교할 수 있다면 좋을 것입니다.

예를 들어 봅시다.

데이터 세트 X가 [1,2,5,7,3]이라고 가정 해 봅시다.

X 크기 ([7,7,2,5,7], [3,5,2,2,7] 등)와 동일한 샘플 크기를 생성하기 위해 여러 번 교체하여 샘플링하면 각각의 평균을 계산하면 표본의 부트 스트랩 분포가 평균입니까?

이것의 베이지안 부트 스트랩 배포는 무엇입니까?

그리고 다른 매개 변수 (분산 등)의 베이지안 부트 스트랩 분포는 어떻게 같은 방식으로 수행됩니까?


4
참조 sumsar.net/blog/2015/04/...projecteuclid.org/euclid.aos/1176345338을 라스무스 - 바트는 대답 할 수 어쩌면 @;)

답변:


27

(빈번한) 부트 스트랩은 알 수없는 인구 분포에 대한 합리적인 근사치로 데이터를 가져옵니다. 따라서 통계치 (데이터의 함수)의 샘플링 분포는 각 표본에 대한 통계량을 대체하고 대체하여 관측 값을 반복적으로 재 샘플링함으로써 근사화 될 수 있습니다.

하자 원래의 데이터를 나타낸다. (주어진 예에서, ) 는 부트 스트랩 샘플을 나타냅니다. 이러한 표본에는 일부 관측이 한 번 이상 반복 될 수 있으며 다른 관측은 없을 것입니다. 부트 스트랩 샘플의 평균은알 수없는 모집단의 샘플링 분포를 근사화하는 데 사용되는 여러 부트 스트랩 복제에 대한 분포입니다 .n = 5 y b = ( y b 1 , , y b n ) m b = 1와이=(와이1,,와이)=5와이=(와이1,,와이)b

=1나는=1와이나는.

잦은 부트 스트랩과 베이지안 부트 스트랩 사이의 연결을 이해하려면 다른 관점에서 를 계산하는 방법을 이해하는 것이 .

각 부트 스트랩 샘플 에서 각 관측 값 는 0에서 번 까지 발생합니다 . 하자 횟수를 나타낸다 발생 , 및하자 . 따라서 및 입니다. 주어지면 과 같이 음이 아닌 가중치 모음을 구성 할 수 있습니다 . 여기서 입니다. 이 표기법을 사용하여 부트 스트랩 샘플의 평균을 y i n h b i y i y b h b = ( h b 1 , , h b n ) h b i{ 0 , 1 , , n - 1 , n } n i = 1 h b i = n h b w b = h b /와이와이나는h나는와이나는와이h=(h1,,h)h나는{0,1,,1,}나는=1h나는=hw b i = h b i / n m b = n i = 1 w b i=h/나는=h나는/

=나는=1나는와이나는.

부트 스트랩 샘플에 대한 관측치 선택 방식에 따라 의 결합 분포가 결정 됩니다. 특히 는 다항 분포를 가지므로따라서 분포에서 를 그리고 내적을 계산하여 를 계산할 수 있습니다 . 이 새로운 관점에서, 가중치가 변하는 동안 관측치는 고정 된 것으로 보입니다 .h b ( nhm b w b y

()다항식(,(1/)나는=1).
와이

베이지안 추론에서는 관측치가 실제로 고정 된 것으로 간주되므로이 새로운 관점은 베이지안 접근 방식과 동일합니다. 실제로 베이지안 부트 스트랩에 따른 평균 계산은 가중치 분포에서만 다릅니다. 그럼에도 불구하고 개념적 관점에서 베이지안 부트 스트랩은 잦은 버전과는 상당히 다릅니다. 데이터 는 고정되어 있으며 가중치 는 알려지지 않은 매개 변수입니다. 알려지지 않은 매개 변수에 의존하는 데이터의 일부 기능 에 관심이있을 수 있습니다 : w μ = n i = 1 w i와이

μ=나는=1나는와이나는.

다음은 베이지안 부트 스트랩 뒤에있는 모델의 썸네일 스케치입니다. 관측치의 샘플링 분포는 다항식이며 가중치에 대한 선행은 모든 가중치를 단순의 정점에 두는 제한 디리클레 분포입니다. (일부 저자는이 모델을 다항식 우도 모델이라고 합니다.)

이 모형은 가중치에 대해 다음 사후 분포를 생성합니다. (이 분포는 단면에 평평합니다.) 가중치에 대한 두 분포 (자주 주의자와 베이지안)는 매우 유사합니다. 즉, 평균이 같고 공분산이 동일합니다. Dirichlet 분포는 다항 분포보다 '스무더'이므로 베이지안 부트 스트랩은 스무딩 부트 스트랩이라고 할 수 있습니다. 잦은 부트 스트랩을 베이지안 부트 스트랩에 대한 근사치로 해석 할 수 있습니다.

디리클레(1,,1).

가중치에 대한 사후 분포를 고려하면 Dirichlet 분포에서 를 반복 샘플링 하고 하여 내적을 계산하여 기능적 의 사후 분포를 근사화 할 수 있습니다 .μ와이

우리의 틀 채택 할 추정 방정식 여기서 의 벡터이고, 예측 함수 온 의존 알 수없는 매개 변수 (벡터) 및 은 으로 구성된 벡터입니다. 이 방정식 시스템에 와 주어진 대한 고유 한 해가 있다면 , 우리는 사후 분포 에서 를 그리고 해를 평가하여 사후 분포를 계산할 수 있습니다. (추정 방정식의 프레임 워크는 경험적 가능성 과 일반화 된 모멘트 방법 (GMM)과 함께 사용됩니다 .)

나는=1나는(와이나는,θ)=0_,
(와이나는,θ)θ0_θ와이

가장 간단한 경우는 이미 처리 한 하나이다 : 평균과 분산을 위해, 우리 이 이 설정은 잦은 부트 스트랩보다 조금 더 복잡하기 때문에 Bayesian은 잦은 부트 스트랩을 빠른 근사치로 채택 할 수 있습니다.

나는=1나는(와이나는μ)=0.
θ=(μ,V)
(와이나는,θ)=(와이나는μ(와이나는μ)2V).

1
매우 자세한 설명에 감사드립니다. 개인적으로 나는 언제 각각을 선택할 지에 대한 간략한 진술에 감사드립니다.
ErichBSchulz
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.