베이지안 후부는 적절한 분포 여야합니까?


21

나는 사전이 적절할 필요가 없으며 우도 함수도 1에 통합되지 않는다는 것을 알고 있습니다. 그러나 후자는 적절한 분포가 필요합니까? 그렇지 않은 경우의 의미는 무엇입니까?

답변:


15

, 지금까지 내가 말할 수있는, 문제는 후방이되고 있는지 여부 때문에 (이 다소 앞서 적절한 때 후방의 잠재적 인 부정에 초점을 이전 답변을 읽을 수있는 놀라운이다 적절한 ( 하나 적분 즉,)이 될 적절한 (즉, 베이 즈 추론 허용) 후방).

베이지안 통계에서 사후 분포 확률 분포 여야하며, 여기서 사후 평균 와 같은 순간을 도출 할 수있는 확률 분포 와 신뢰할 수있는 범위와 같은 확률 진술 영역 . 만약 후방 불가능 확률 밀도로 정규화되고 베이지안 추론은 단순히 수행 될 수 없습니다. 그러한 경우에는 후부가 단순히 존재하지 않습니다.Eπ[h(θ)|x]P(π(θ|x)>κ|x)

f(x|θ)π(θ)dθ=+,(1)
π(θ|x)

실제로, (1) 표본 공간에서 모든 유지해야 하며 관찰 된 뿐만 아니라 이전 를 선택하는 것은 데이터에 따라 달라집니다 . 이는 이항 또는 음 이항 변수 의 확률 에 대한 Haldane의 이전 와 같은 사전 은 사후가 아니기 때문에 사용할 수 없음을 의미합니다. 대해 정의되었습니다 .x xπ(p){1/p(1p)}pXx=0

"부적절한 후부"를 고려할 수있는 한 가지 예외를 알고 있습니다. David van Dyk와 Xiao-Li Meng의 "데이터 기능 보강 기술" 에 나와 있습니다. 부적당 한 측정 값은 소위 작동 모수 이상이므로 , 증가 분포 의해 관측 값이 생성됩니다. 및 van Dyk 및 Meng 은이 작업 매개 변수 에 대해 를 잘못 지정했습니다. MCMC에 의한 (확률 밀도로 잘 정의 된 상태 의 시뮬레이션 속도를 높이기 위해 .f ( x | θ ) = T ( x aug ) = x f ( x aug | θ , α )α P ( α ) α π ( θ | X )

f(x|θ)=T(xaug)=xf(xaug|θ,α)dxaug
p(α)απ(θ|x)

또 다른 관점에서, eretmochelys 의 답변 , 즉 베이지안 결정 이론 의 관점과 다소 관련이 있으며 , 최적의 결정을 이끌어 내더라도 (1)이 발생하는 설정은 여전히 ​​수용 가능할 수 있습니다. 즉, 만약 결정을 사용의 영향 평가 손실 함수 하는 베이지안 최적 결정 종래 아래 주어진다 그리고 중요한 것은이 정수가 어디에나 없다는 것입니다 ( ) 무한. 의 유도에서 (1) 보류가 보조인지 여부δ π δ ( x ) = arg min δ L ( δ , θ ) f ( x | θ )L(δ,θ)0δπδ δ ( x )

δ(x)=argminδL(δ,θ)f(x|θ)π(θ)dθ
δδ(x)허용 가능성과 같은 속성은 (1)을 보유한 경우에만 보장됩니다.

19

사전이 적절하더라도 사후 분포가 적절할 필요는 없습니다. 예를 들어, 모양이 0.25 (감마) 인 감마를 가지고 있고 가우스 분포에서 평균 0과 분산 를 사용하여 데이텀 를 모델링 한다고 가정 합니다. 가 0 인 것으로 가정 합니다. 그런 다음 가능성 는 에 비례합니다. 비례하기 때문에 의 사후 분포는 부적절 합니다. 이 문제는 연속 변수의 엉뚱한 특성으로 인해 발생합니다.x v x p ( x | v ) v 0.5 v v 1.25 e vvxvxp(x|v)v0.5vv1.25ev


멋진 예, 톰!
Zen

+1이지만 OP의 마지막 문장에 대한 답변을 확장 할 수 있습니까? 이 뒤틀린 후부는 의미가 있습니까 (일반적으로 후자와 함께 할 수있는 일을 할 수 있습니까), 또는 일부 계산에서 NaN 또는 Inf를 얻는 것과 더 유사합니까? 모델에 문제가 있다는 신호입니까?
Wayne

5
모델에는 아무런 문제가 없습니다. 이 후부는 다른 관측 값을 수신하면이를 곱한 후 적절한 후부로 돌아갈 수 있다는 의미에서 의미가 있습니다. 따라서 모든 추가 작업이 NaN 인 NaN과는 다릅니다.
Tom Minka

8
비록 이것이 너무 늦었을 수도 있지만, 그러한 "카운터 예"를 사용하는 것이 초보자에게는 도움이되지 않는다고 생각합니다 .이 세트에서 임의로 정의 할 수있을 때 에서 특정 버전의 가우스 밀도를 사용하기 때문에 문제가 발생 합니다. 측정 값이 0입니다. 따라서 선택한 버전에 따라 후방을 적절하거나 부적절하게 만듭니다. x=0
시안

흥미 – 일반 를 취하면 , 그 후부는 매개 변수를 가진 일반화 된 역 가우스입니다 . @ Xi'an-이것으로부터 적절한 후부를 얻는 다른 방법을 보는 것이 좋을 것입니다. x0.25,1,x2
probabilityislogic

11

집합 정의 우리 이 의 Lebesgue 측정 값 이 양수 이면 마지막 적분은 같습니다 . 그러나이 적분은 확률 ( 과 사이의 실수)을 제공하기 때문에 불가능합니다 . 따라서 의 Lebesgue 측정 값이 이며 물론 다음과 같습니다.

Bogus Data={x:f(xθ)π(θ)dθ=},
가짜 데이터 0 1 가짜 데이터 0 P r ( X 가짜 데이터 ) = 0
Pr(XBogus Data)=Bogus Dataf(xθ)π(θ)dθdx=Bogus Datadx.
Bogus Data01Bogus Data0Pr(XBogus Data)=0 .

즉, 후방을 부적절하게 만드는 샘플 값의 사전 예측 확률은 0입니다.

이야기의 도덕 : null 세트를주의하면 물릴 수 있지만 불가능할 수도 있습니다.

추신 : Robert 교수가 지적한 바와 같이, 이러한 추론은 이전의 내용이 부적절하면 폭발합니다.


4
당신은 한 번 썼습니다 : "우리가 적절한 사전으로 시작해서 부적절한 후부를 얻을 수 있다면, 나는 추론을 그만 둘 것입니다."
Tom Minka

2
뺨에 약간의 혀가 있었지만 암시 적 정량자가있었습니다. 만약 우리가 적절한 사전 값으로 시작해서 가능한 모든 샘플 값에 대해 부적절한 후방을 얻는다면, 나는 추론을 그만 둘 것입니다. ;-)
Zen

그건 그렇고, 놀라운 기억, 톰!
Zen

4
@Zen : 난 당신이 가정한다는 점에서 당신의 추론에 문제가 있다고 생각 확률이고, 따라서 그의 공동 조치 는 확률 척도이며, 이는 선행이 (적절한) 확률 척도 여야 함을 의미합니다. ( θ , x )Pr(XBogus Data)(θ,x)
시안

1
당신은 맞습니다. 대답의 추론은 적절한 사전에만 작동합니다. 좋은 지적. 메모를 추가하겠습니다.
Zen

3

모든 "배포"는 1로 합산 (또는 통합)해야합니다. 정규화되지 않은 분포로 작업 할 수있는 몇 가지 예를 생각할 수 있지만 1은 "배포"외에는 소외되는 것을 호출하는 것이 불편합니다.

Bayesian posterior를 언급 했으므로 일부 특징 벡터 주어지면 의 최적 추정치를 검색하는 분류 문제에서 비롯 될 수 있습니다.xd

x^=argmaxxPX|D(x|d)=argmaxxPD|X(d|x)PX(x)PD(d)=argmaxxPD|X(d|x)PX(x)

마지막 평등은 가 의존하지 않는다는 사실에서 비롯됩니다 . 그런 다음 베이지안 후부에 비례하는 값을 기준으로 독점적으로 선택할 수 있지만 확률로 혼동하지 마십시오! X X P D | X ( d | x ) P X ( x )PDxx^PD|X(d|x)PX(x)


@ 젠이 답변에 대해 틀렸다고 생각하거나 근본적으로 불완전하다고 생각하는 것이 더 명확합니까?
whuber

1
OP 질문을 해석하는 한 가지 방법은 "후부는 적절한 분포 여야합니까?" 적절한 선행으로 시작하여 부적절한 후부로 끝나는 것이 수학적으로 가능한지 묻는 것입니다. Minka의 대답은 그것이 일어나는 명백한 예를 보여줍니다. 나는 그것을 내 대답으로 보완하려고 노력했으며 이것은 사전 예측 확률이 0 인 경우에만 발생할 수 있다고 지적했다.
Zen

1
@ 젠 밀접하게 관련된 해석은 "후부가 적절하지 않으면 어떤 정보를 얻을 수 있습니까?" 이 승인 된 답변은 특별한 상황 (명확하게 설명되어 있음)과 관련된 유용한 조언을 제공하는 것 같습니다. 수용은 나에게 eretmochelys가 상황에 대한 날카로운 추측으로 집을 쳤다는 신호처럼 보입니다.
whuber

-2

부적절한 후방 분포는 사전 분배가 부적절한 경우에만 발생합니다. 이것의 의미는 점근 적 결과가 유지되지 않는다는 것입니다. 예를 들어, 를 사전 분포로 사용하는 경우 성공과 0 개의 실패 로 구성된 이항 데이터를 고려 하면 후부가 잘못됩니다. 이 상황에서 가장 좋은 방법은 부적절한 사전을 대체 할 적절한 사전 분배를 생각하는 것입니다.B e t a ( 0 , 0 )nBeta(0,0)


3
이 답변은 잘못되었습니다. 내 대답을 참조하십시오.
Tom Minka
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.