베이지안 예측 분포 이해


9

Bayes 입문 과정을 진행 중이며 예측 분포를 이해하는 데 어려움이 있습니다. 왜 그것들이 유용하고 그 정의에 익숙한 지 이해하지만 이해하지 못하는 것이 있습니다.

1) 새로운 관측치 벡터에 대한 올바른 예측 분포를 얻는 방법

데이터에 대한 샘플링 모델 와 이전 고 가정 해 봅시다 . 관측 값 가 주어지면 조건에 독립적 이라고 가정합니다 .p(yi|θ)p(θ)yiθ

일부 데이터 이전 를 사후 .D={y1,y2,...,yk}p(θ)p(θ|D)

새로운 관측치의 벡터를 예측하려면 , 이 공식 사용하여 사후 예측을 구해야한다고 생각합니다 동일하지 않은 그래서 예측 된 관측치는 독립적이지 않습니까?N={y~1,y~2,...,y~n}

p(N|D)=p(θ|D)p(N|θ)dθ=p(θ|D)i=1np(y~i|θ)dθ,
i=1np(θ|D)p(y~i|θ)dθ,

그 Beta ( ) 및 Binomial ( ) 고정 . 이 경우, 6 개의 새로운 를 시뮬레이션 하고 싶다면 이것을 올바르게 이해하면 단일 관측치의 사후 예측에 해당하는 Beta-Binomial 분포와 독립적으로 6 개의 드로우를 시뮬레이션하는 것은 잘못된 것입니다. 이 올바른지? 관측치가 약간 독립적이지 않다는 것을 해석하는 방법을 모르겠으며, 이것을 올바르게 이해하고 있는지 잘 모르겠습니다.θ|Da,bp(yi|θ)n,θny~

사후 예측에서 시뮬레이션

사후 예측의 데이터를 시뮬레이션 할 때 여러 번이 체계를 따릅니다.

옵션 (1) 내지 :bB

1) 샘플 에서 .θ(b)p(θ|D)

2) 그런 다음 에서 새 데이터 을 시뮬레이션 합니다.N(b)p(N|θ(b))

직관적으로 보이지만이 체계가 어떻게 작동하는지 증명하는 방법을 모르겠습니다. 또한 이름이 있습니까? 나는 칭의를 찾고 다른 이름을 시도했지만 운이 없었습니다.

감사!


stats.stackexchange.com/questions/72570/ 에서 비슷한 질문을 했지만 지금까지 더 많은 투표를 한 것으로 보입니다.
John

답변:


4

한다고 가정 엑스1,,엑스,엑스+1 주어진 조건부 독립 Θ=θ. 그때,

에프엑스+1엑스1,,엑스(엑스+1엑스1,,엑스)=에프엑스+1,Θ엑스1,,엑스(엑스+1,θ엑스1,,엑스)θ
=fXn+1Θ,X1,,Xn(xn+1θ,x1,,xn)fΘX1,,Xn(θx1,,xn)dθ
=fXn+1Θ(xn+1θ)fΘX1,,Xn(θx1,,xn)dθ,
첫 번째 평등은 총 확률의 법칙에 따르고, 두 번째 평등은 곱셈 규칙에서, 세 번째 평등은 가정 된 조건부 독립성에서 나옵니다. Θ, 우리는 가치가 필요하지 않습니다 X1,,Xn 분포를 결정하기 위해 Xn+1.

시뮬레이션 구성표가 정확합니다. i=1,,N, 그리기 θ(i) 분포에서 ΘX1=x1,,Xn=xn그런 다음 그립니다 xn+1(i) 분포에서 Xn+1Θ=θ(i). 이것은 당신에게 샘플을 제공{xn+1(i)}i=1N 분포에서 Xn+1X1=x1,,Xn=xn.


여러 기간에 걸쳐 사후 예측을 얻는다면 어떨까요? 나는 사용하고있다θ(i) 각각 xn+j하지만 새로운 세타를 다시 작성하는 것이 왜 의미가 있는지 알 수 있습니다.
John

2

단계별 예측 분포를 단계별로 생성하는 직관에 대해 살펴 보겠습니다.

허락하다 y 확률 분포에서 나온 관측 데이터로 구성된 벡터 p(y|θ) 그리고하자 y~우리가 예측하고자하는 미래 (또는 표본 외) 값으로 구성된 벡터 여야합니다. 우리는y~ 와 같은 분포에서 나온다 y. 최선의 추정치를 사용하고 싶을 수도 있습니다.θ이 분포에 대한 정보를 얻기 위해 MLE 또는 MAP 추정과 같은 그러나 그렇게하는 것은 필연적으로θ. 따라서 적절한 진행 방법은 사후 분포를 평균화하는 것입니다.θp(θ|y). 또한 주목하십시오y~ ~의 독립 y 주어진 θ동일한 분포에서 추출 된 독립 표본 인 것으로 가정하므로 y. 그러므로,

p(y~|θ,y)=p(y~,y|θ)p(θ)p(θ,y)=p(y~|θ)p(y|θ)p(θ)p(y|θ)p(θ)=p(y~|θ).

사후 예측 분포 y~ 따라서

p(y~|y)=Θp(y~|θ,y)p(θ|y)dθ=Θp(y~|θ)p(θ|y)dθ

어디 Θ 의 지원이다 θ.

이제 샘플을 어떻게 얻습니까? p(y~|y)? 설명하는 방법을 구성 방법 이라고도하며 다음과 같이 작동합니다.


s = 1,2, ..., S의 경우

무승부 θ(s) ...에서 p(θ|y)

무승부 y~(s) ...에서 p(y~|θ(s))


대부분의 상황에서 우리는 이미 p(θ|y)두 번째 단계 만 필요합니다.

이것이 작동하는 이유는 매우 간단합니다. p(y~,θ|y)=p(y~|θ,y)p(θ|y). 따라서 파라미터 벡터를 샘플링θ(s) ...에서 p(θ|y) 그런 다음이 벡터를 사용하여 샘플링 y~(s) ...에서 p(y~|θ(s))=p(y~|θ(s),y) 관절 분포에서 샘플을 산출 p(y~,θ|y). 그 다음에 샘플링 된 값y~(s),s=1,2,...,S 한계 분포의 표본입니다. p(y~|y).


1

첫 번째 질문을 해결하기 위해 : 네, θ. 말해 봐요y~1오히려 극단적 인 가치가 있습니다. 알 수없는 값이θ 그 자체는 극단이므로 다른 관측치도 극심해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.