베이지안 이전의 표본이 큰 표본 크기와 관련이 없습니까?


26

베이지안 추론을 수행 할 때, 우리는 매개 변수에 대한 사전과 결합하여 우도 함수를 최대화함으로써 작동합니다. 로그 우도가 더 편리하기 때문에 MCMC를 사용하거나 사후 분포를 생성하는 (또는 각 매개 변수의 사전 및 각 데이터 포인트의 우도에 대한 pdf 사용 ) ln(prior)+ln(likelihood) 을 효과적으로 최대화 합니다.

우리가 많은 데이터를 가지고 있다면, 그로부터의 가능성은 간단한 수학으로 이전의 정보를 압도 할 것입니다. 궁극적으로 이것은 좋은 것이며 의도적으로 설계된 것입니다. 우리는 후부가 더 많은 데이터를 가지고있을 가능성으로 수렴한다는 것을 알고 있습니다.

켤레 사전에 의해 정의 된 문제의 경우, 이것은 정확히 입증 될 수도 있습니다.

주어진 우도 함수와 일부 표본 크기에 대해 사전이 중요하지 않은시기를 결정하는 방법이 있습니까?


3
첫 문장이 옳지 않습니다. 베이지안 추론 및 MCMC 알고리즘은 가능성을 최대화하지 않습니다.
niandra82

5
한계 가능성, 베이 즈 요인, 사전 / 사후 예측 분포, 사전 / 사후 예측 점검에 익숙하십니까? 이들은 베이지안 패러다임에서 모델을 비교하는 데 사용할 유형입니다. 이 질문은 이전에 의해서만 다른 모델 사이의 Bayes 계수가 샘플 크기가 무한대로 갈 때 1로 수렴되는지 여부에 달려 있다고 생각합니다. 또한 가능성에 의해 암시 된 모수 공간 내에서 잘리는 우선 순위를 무시할 수도 있습니다. 이는 대상이 최대 가능성 추정치로 수렴되는 것을 거부 할 수 있기 때문입니다.
Zachary Blumenfeld

@ZacharyBlumenfeld : 이것은 정답 일 수 있습니다!
Xi'an

올바른 형식이 "최대 베이 규칙"입니까? 또한 내가 작업하는 모델은 물리적 기반이기 때문에 잘린 매개 변수 공간이 작업에 필수적입니다. (나는 또한 귀하의 의견이 아마도 대답이라는 데 동의합니다. @ZacharyBlumenfeld에서 그것들을 살려 낼 수 있습니까?)
pixels

답변:


37

그렇게 쉬운 일이 아닙니다. 데이터의 정보는 샘플 크기가 클뿐만 아니라 데이터 가 사전 정보를 압도하기에 충분한 정보 를 제공 할 때 이전 정보를 압도합니다. 유익한 정보는 데이터에 의해 쉽게 설득 될 수있는 반면, 유익한 정보는 더 저항적일 수 있습니다. 극단적 인 경우 사전 정의가 잘못되어 데이터를 극복하지 못할 수도 있습니다 (예 : 일부 지역에서 밀도가 0 임).

Bayes 정리에 따르면 통계 모델에서 데이터 외부, 이전 정보 및 우도 함수 로 데이터가 전달하는 정보의 두 가지 정보 소스를 사용 합니다.

posteriorprior×

유익하지 않은 이전 (또는 최대 가능성)을 사용할 때 가능한 최소한의 이전 정보를 모델로 가져 오려고합니다. 유익한 사전 정보를 통해 상당한 양의 정보를 모델에 제공합니다. 따라서 데이터와 이전의 데이터는 추정 된 매개 변수의 값이 더 타당하거나 믿을 수있는 값을 알려줍니다. 그들은 서로 다른 정보를 가져올 수 있으며 각각의 경우에 따라 서로를 압도 할 수 있습니다.

이것을 매우 기본적인 베타 이항 모델 로 설명하겠습니다 ( 자세한 예는 여기 참조 ). 으로 "가치가없는"이전에 , 아주 작은 샘플을 압도하기에 충분한 수 있습니다. 아래 그림에서 샘플 크기가 다른 동일한 모델의 선행 (빨간색 곡선), 우도 (파란색 곡선) 및 후부 (보라색 곡선)를 볼 수 있습니다.

여기에 이미지 설명을 입력하십시오

다른 한편으로, 당신은 정보에 앞서 설득력있는 값에 가까운 정보를 가질 수 있습니다. 그것은 또한 쉬운 일이지만 데이터에 의해 설득되는 매주 유익한 정보만큼 쉽지는 않습니다.

여기에 이미지 설명을 입력하십시오

데이터가 말하는 것과 거리가 먼 경우 (첫 번째 예에서와 동일한 데이터를 사용하는) 유익한 사전 정보와는 매우 다릅니다. 이러한 경우 이전을 극복하기 위해 더 큰 샘플이 필요합니다.

여기에 이미지 설명을 입력하십시오

따라서 샘플 크기뿐만 아니라 데이터와 이전 데이터에 관한 것입니다. 공지 사항이이 것을 원하는 행동, 우리는 정보 전과 사용하는 경우 때문에 원하는을 잠재적으로 우리의 모델에서-의 데이터 정보를 포함하고 큰 샘플이 항상 전과를 폐기 할 경우이 불가능하다.

사후 우도-우선 관계가 복잡하기 때문에 사후 분포를보고 사후 예측 검사를 수행하는 것이 좋습니다 (Gelman, Meng and Stern, 1996; Gelman and Hill, 2006; Gelman et al, 2004). 또한 Spiegelhalter (2004)에 설명 된대로 다른 효과를 사용할 수 있습니다 (예 : 큰 효과에 대한 의문을 나타내는 "비관적"또는 추정 된 효과에 대해 낙관적 인 "열의"). 데이터와 다른 사전 동작이 어떻게 다른지를 비교하면 사후에 이전의 영향을받는 정도를 비공식적으로 평가할 수 있습니다.


Spiegelhalter, DJ (2004). 베이지안 아이디어를 건강 관리 평가에 통합.통계 과학, 156-174.

Gelman, A., Carlin, JB, Stern, HS 및 Rubin, DB (2004). 베이지안 데이터 분석. 채프먼 & 홀 / CRC.

Gelman, A. 및 Hill, J. (2006). 회귀 및 다단계 / 계층 모델을 사용한 데이터 분석 케임브리지 대학 출판부.

Gelman, A., Meng, XL 및 Stern, H. (1996). 실현 된 불일치를 통한 모델 적합성의 사후 예측 평가. Statistica sinica, 733-760.


2
기여해 주셔서 감사합니다. Tim. 여기에 멋지게 배치 된 대비 가 모델의 다른 매개 변수와 관련하여 하나의 동일한 모델 내에서도 표시 될 수 있다고 덧붙이고 싶습니다 . 데이터가 무시할만한 정보를 제공하는 파라미터가있을 수 있으며,이 경우 사전에 식별 제한 을 제공 하는 데 중요한 역할을 할 있습니다.
David C. Norris

그래프의 첫 번째 3x3 행렬에서 그래프가 정확합니까? 후부는 n = 25까지 완전히 평평합니까?
MichiganWater

1
@MichiganWater 각 9 플롯 모음은 y 축에 대해 동일한 배율을 사용하므로 가장 큰 값이 화면을 벗어나지 않습니다. 따라서 데이터가 더 많은 경우에 비해 평평합니다. "확대"하면 평평하지 않습니다.

11

베이지안 추론을 수행 할 때, 우리는 매개 변수에 대한 사전과 결합하여 우도 함수를 최대화함으로써 작동합니다.

이것은 실제로 대부분의 실무자들이 베이지안 추론으로 간주하는 것이 아닙니다. 이런 식으로 매개 변수를 추정 할 수는 있지만 베이지안 추론이라고 부르지는 않습니다.

베이지안 추론 은 사후 분포를 사용하여 경쟁 가설에 대한 사후 확률 (또는 확률의 비율)을 계산합니다.

사후 분포를 추정 할 수 있습니다 Monte Carlo 또는 Markov-Chain Monte Carlo (MCMC) 기법으로 실험적 .

이러한 차이점을 제쳐두고 문제는

베이지안 이전의 표본이 큰 표본 크기와 관련이 없습니까?

여전히 문제의 상황과 관심사에 달려 있습니다.

관심이있는 것이 이미 매우 큰 표본이 ​​주어진 예측 인 경우, 대답은 일반적으로 그렇습니다. 선행은 무의식적으로 관련이 없습니다 *. 그러나 모델 선택과 베이지안 가설 검정에 관심이있는 경우에는 답이 '아니오'입니다.

* 여기서, 우선 순위는 가능성에 의해 암시 된 매개 변수 공간을 넘어 잘리지 않고 검열되지 않으며, 중요한 지역에서 밀도가 거의 0이 아닌 수렴 문제를 일으킬 정도로 잘못 지정되지 않았다고 가정합니다. 내 주장은 또한 점근 적이며 모든 규칙적인 경고와 함께 제공됩니다.

예측 밀도

dN=(d1,d2,...,dN)dif(dNθ)θ

π0(θλ1)π0(θλ2)λ1λ2

각각의 사전은 유한 샘플 에서 서로 다른 사후 분포로 이어질 것입니다

πN(θdN,λj)f(dNθ)π0(θλj)forj=1,2

θθNjπN(θdN,λj)θ^N=maxθ{f(dNθ)}θN1θN2θ^Nθε>0

limNPr(|θNjθ|ε)=0j{1,2}limNPr(|θ^Nθ|ε)=0

θNj=maxθ{πN(θdN,λj)}

로 정의되는 예측 밀도f(d~dN,λj)=Θf(d~θ,λj,dN)πN(θλj,dN)dθf(d~dN,θNj)f(d~dN,θ)

모델 선택 및 가설 테스트

베이지안 모델 선택과 가설 테스트에 관심이 있다면, 이전의 효과가 무증상으로 사라지지 않는다는 것을 알아야합니다.

f(dNmodel)

케이=에프(영형이자형1)에프(영형이자형2)
일련의 모형에서 각 모형에 대한 사후 확률은 한계 확률에서도 계산할 수 있습니다.
아르 자형(영형이자형j)=에프(영형이자형j)아르 자형(영형이자형j)=1에프(영형이자형)아르 자형(영형이자형)
이들은 모델을 비교하는 데 사용되는 유용한 지표입니다.

위 모델의 경우 한계 우도는 다음과 같이 계산됩니다.

에프(λj)=Θ에프(θ,λj)π0(θλj)θ

그러나 표본에 관측치를 순차적으로 추가하는 것에 대해 생각하고 한계 가능성을 예측 가능성 체인으로 작성할 수 있습니다 .

f(dNλj)=n=0N1f(dn+1dn,λj)
From above we know that f(dN+1dN,λj) converges to f(dN+1dN,θ), but it is generally not true that f(dNλ1) converges to f(dNθ), nor does it converge to f(dNλ2). This should be apparent given the product notation above. While latter terms in the product will be increasingly similar, the initial terms will be different, because of this, the Bayes factor
f(dNλ1)f(dNλ2)p1
This is an issue if we wished to calculate a Bayes factor for an alternative model with different likelihood and prior. For example consider the marginal likelihood h(dNM)=Θh(dNθ,M)π0(θM)dθ; then
f(dNλ1)h(dNM)f(dNλ2)h(dNM)
asymptotically or otherwise. The same can be shown for posterior probabilities. In this setting the choice of the prior significantly effects the results of inference regardless of sample size.

5

Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.

As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.

And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.