MCMC 표본의 한계 우도 계산


24

이것은 되풀이되는 질문이지만 ( 이 게시물 , 이 게시물이 게시물 참조 ) 다른 스핀이 있습니다.

일반 MCMC 샘플러의 많은 샘플이 있다고 가정합니다. 각 표본 대해 θ, 로그 우도 logf(x|θ) 와 로그 우선 의 값을 알고 logf(θ)있습니다. 도움이된다면 데이터 포인트 당 로그 우도 값 도 알고 있습니다 logf(xi|θ)(이 정보는 WAIC 및 PSIS-LOO와 같은 특정 방법에 도움이됩니다).

난 그냥 내가 가지고있는 샘플과 함께, 한계 가능성의 (원유) 추정치를 획득 할 가능성이 몇 가지 다른 기능 평가 (그러나 다시 실행하지 않고 임시 MCMC)를.

우선, 테이블을 정리해 봅시다. 우리는 모두 고조파 추정기가 최악의 추정기 라는 것을 알고 있습니다. 계속 갑시다. 앞뒤로 닫힌 형태로 Gibbs 샘플링을 수행하는 경우 Chib의 방법을 사용할 수 있습니다 . 그러나 그 경우를 제외하고 일반화하는 방법을 모르겠습니다. 샘플링 절차를 수정 해야하는 방법도 있습니다 (예 : 강화 된 후부 를 통해 ). 나는 여기에 관심이 없습니다.

내가 생각하고 접근 방식은 파라 메트릭 (또는 비모수) 모양으로 기본 분포를 근사 구성 g(θ) 정규화 상수의 다음 알아내는 Z (1-D 최적화 문제로 즉, Z 이 최소화 일부 오류 사이 Zg(θ)f(x|θ)f(θ) 샘플 평가). 가장 간단한 경우, 사후가 대략 다변량 법선이라고 가정하고 g(θ)다변량 법선으로 Laplace 근사와 비슷한 것을 얻습니다 (모드 위치를 세분화하기 위해 몇 가지 추가 함수 평가를 사용하고 싶을 수도 있습니다). 그러나, 나는 다변량 t 분포 의 변이 혼합과 같은보다 유연한 패밀리 를 로 사용할 수 있다.g(θ)t

나는이 방법은 경우에만 작동 감사 Zg(θ) 에 대한 합리적인 근사치 f(x|θ)f(θ) 하지만, 어떤 이유로 또는 그것을 할 매우 현명하지 왜의주의 이야기는? 당신이 추천하는 독서가 있습니까?

완전 비모수 적 접근법은 가우시안 프로세스 (GP)와 같은 일부 비모수 적 패밀리를 사용하여 logf(x|θ)+logf(θ) (또는 제곱근과 같은 다른 비선형 변환) 및 베이지안을 근사화합니다. 기본 목표를 암시 적으로 통합하는 구적법 ( 여기여기 참조 ). 이것은 흥미로운 대안으로 보이지만 정신과 비슷합니다 (또한 GP는 다루기 어려울 것입니다).


6
Chib, S. 및 Jeliazkov, I. 2001 "광역시의 한계 가능성-해 스팅 출력"은 일반적인 MCMC 출력으로 일반화됩니다. GP와 관련하여-기본적으로 이것은 후부의 에뮬레이션으로 귀결되며 다른 문제도 고려할 수 있습니다. 문제는 근사치의 품질에 대해 확신 할 수 없다는 것입니다. 또한 MCMC 샘플이 GP 모델에 이상적인지 또는 꼬리에 더 많이 투자해야하는지 궁금합니다.
Florian Hartig

2
(+1) 참조 해 주셔서 감사합니다. 모든 모델 기반 접근 방식이 문제가 될 수 있음에 동의합니다 (베이지안 구적법의 장점은 보정 방법이 확실하지 않지만 불확실성 추정치를 얻는 것입니다). 당분간 나의 겸손한 목표는 "Laplace 근사치보다 더 나은"것을하는 것입니다.
lacerbi

답변:


26

Chib and Jeliazkov (2001) 의 확장은 불행히도 비용이 많이 들고 변수가 매우 빠르기 때문에 Gibbs 샘플링 케이스 외부에서 많이 사용되지 않는 이유입니다.

이 방법은 여러 가지이며, 정규화 상수의에 접근하는 동안 합니다 (의 매우 다양한 협상에 의해 그림과 같이 추정 문제 추정 상수 워크샵 슬라이드를 사용할 수, 우리는 워릭 대학에서 지난 주에 달려 있다 ), 일부 솔루션은 직접 MCMC 출력을 악용 할 .Z

  1. 앞에서 언급했듯이 Newton and Raftery (1994)의 고조파 평균 추정기는 무한 분산을 갖는 경우가 거의 없습니다. 그러나 고조파 평균 동일성에 유한지지 대상을 대신 사용하여 무한 분산 저주를 피할 수있는 방법이 있습니다. 후부 HPD 영역의 지표로α를 선택하여 Z 를 선택합니다. 이는 고조파 평균의 꼬리를 제거하여 유한 분산을 보장합니다. (자세한 내용은내가 Darren Wraith함께 쓴 논문과 Jean-Michel Marin으로 작성된상수 정규화에 관한에서찾을 수 있습니다.) 간단히 말해서이 방법은 MCMC 출력θ1,,θMβ( 20 % say) 목표π(θ)f(x|θ)의가장 큰 값과α생성

    α(θ)π(θ)f(x|θ)dπ(θ|x)=1Z
    αθ1,,θMβπ(θ)f(x|θ)αθi0ρZ
    Z^1=1βM2m=1Mdouble sum overβM ball centres θi0and M simulations θmI(0,ρ)(mini||θmθi0||){π(θm)f(x|θm)}1/πd/2ρdΓ(d/2+1)1volume of ball with radius ρβMα(θm)π(θm)f(x|θm)
    dθραM2βM2
    1βMi=1βM1Mm=1MU(θi0,ρ)(θm)same as with min×1π(θm)f(x|θm)
    각 용어와 에 통합 .θmZ1
  2. 또 다른 방법은 정규화 상수 를 매개 변수로 바꾸는 것입니다. 이것은 통계적인 이단처럼 들리지만 Guttmann과 Hyvärinen (2012) 의 논문 은 저에게 그 반대를 확신 시켰습니다. 너무 자세하게 설명하지 않고 깔끔한 아이디어는 관측 된 로그 우도를 공동 로그 가능성으로의 이것은 강도 함수 을 갖는 포아송 포인트 프로세스의 로그 우도입니다. Z

    i=1nf(xi|θ)nlogexpf(x|θ)dx
    i=1n[f(xi|θ)+ν]nexp[f(x|θ)+ν]dx
    exp{f(x|θ)+ν+logn}
    이것은 원래의 가능성이 위의 한계로 나타나지 않는 대체 모델입니다. 정규화 상수를 제공하는 ν의 조건부 모드와 함께 모드 만 일치합니다. 실제로, 위의 포아송 프로세스 가능성은 이용 가능하지 않으며 Guttmann and Hyvärinen (2012) 은 로지스틱 회귀를 통해 근사치를 제공합니다. 귀하의 질문에 더 잘 연결하기 위해 Geyer의 추정치는 MLE이므로 최대화 문제에 대한 해결책입니다.
  3. 연결 방식은 Charlie Geyer의 로지스틱 회귀 방식입니다. 기본 개념은 알려진 대상의 다른 샘플 (예 : , 에서 에서 MCMC 샘플에 추가 하고 실행하는 것입니다. 데이터 뒤의 분포 지수에 대한 로지스틱 회귀 ( 1, 0 ) 회귀자는 두 밀도의 값으로 정규화되거나 그렇지 않습니다. 이는 Gelman 및 Meng (1997) 브리지 샘플링과 직접 연결되어 다른 대상의 샘플을 재활용합니다. 그리고 Meng의 MLE과 같은 이후 버전.π(θ|x)π(θ|x)g(θ)π(θ|x)g(θ)
  4. 특정 MCMC 샘플러를 강제로 실행하는 다른 접근 방식은 Skilling의 중첩 샘플링 입니다. I [등]는 방법의 효율성에 대한 몇 가지 예약이 있지만, 그것은 같은 소프트웨어와 함께 사용할 수 astrostatistics 우주론에서 매우 인기가 multinest .
  5. 마지막 [항상 가능하지는 않지만 잠재적 인 해결책]은 귀무 가설이 포함 된 경우 베이 즈 요인 의 Savage-Dickey 표현 을 활용하는 것 입니다. null이 기록되는 경우 관심있는 매개 변수에 대해 이고 가 형식의 이전을 가정 할 때 모델 매개 변수의 나머지 [ ] 부분 인 경우 , 대체 쓰기에 대한 의 베이 즈 계수는 여기서 는 특정 값 에서 의 한계 사후 밀도를 나타냅니다.H0:θ=θ0ξπ1(θ)π2(ξ)H0
    B01(x)=πθ(θ0|x)π1(θ0)
    πθ(θ0|x)θθ0. 널 하에서 한계 밀도 는 닫힌 형태의 경우 구속되지 않은 모형의 한계 밀도를 도출 할 수 있습니다. Bayes 인수의(이 Savage-Dickey 표현은 세 가지 밀도의 특정 버전에 의존 하므로 한계 후방을 생성하는 계산상의 어려움은 말할 것도없고 위험에 처해 있습니다.)H0:θ=θ0
    m0(x)=Ξf(x|θ0,ξ)π2(ξ)dξ
    ma(x)=Θ×Ξf(x|θ,ξ)π1(θ)π2(ξ)dθdξ

[ 지난 12 월 NIPS 워크샵을위한 정규화 상수 추정에 대해 쓴 슬라이드 세트입니다 .]


2
(+1) 엄청나게 풍부한 답변, 감사합니다. 이것은 나에게 도움이 될 것입니다. 다양한 접근 방식을 살펴 보려면 시간이 좀 걸리고 구체적인 질문이 다시 올 수 있습니다.
lacerbi

2
포인트 (1)부터 시작합니다. 관련 기사를 읽었습니다. "수정 된"고조파 평균 추정기는 내가 찾던 것과 정확히 일치 합니다. MCMC 출력이 주어지면 깔끔하고 계산하기 쉽습니다. 캐치가 뭐야? Google Scholar에서 빠른 검색으로 판단하여이 방법이 널리 사용되고있는 것 같지는 않습니다. 그 한계는 무엇입니까? (HPD 영역을 식별해야 할 필요성 외에도 높은 차원에서 매우 복잡한 사후에 문제가 될 수 있다고 생각합니다). 나는 분명히 그것을 시도 할 것입니다. 그러나 조심해야 할 것이 있는지 궁금합니다.
lacerbi

2
몇 가지 세부 정보를 추가했습니다. HPD 유니폼을 구현할 때의 문제는 HPD 지역에 적합한 컴팩트 한 근사치를 찾는 것입니다. 사후 값이 높은 포인트의 볼록 껍질은 (NP?)를 결정하기 어렵지만 그 포인트를 중심으로 한 볼이 교차 할 수 있으므로 2 차 정규화 상수 문제가 발생합니다.
Xi'an

2
@ 시안 : 매우 도움, 감사합니다! 내가 언급 할 수있는 모든 접근법 중, 즉시 사용할 수있는 일반적인 접근법을 찾는 경우 현재 권장되는 것은 무엇입니까 (즉, 사용자가 튜닝 / 확인하지 않아도 됨)? 매개 변수 수가 낮고 (<50) 비정규 후부 및 매개 변수 간 강한 상관 관계가있는 모델의 경우 특히 관심이 있습니다.
Florian Hartig

1
@FlorianHartig : BUGS와 같은 일반 소프트웨어가 의 일반 추정치를 반환하지 않는다는 사실은 문제의 정도를 드러내는 것입니다. 전문 문헌에서 찾을 수있는 많은 솔루션은 합의 된 추정치를 산출하지 못했습니다. 따라서 필자는 Geyer의 로지스틱 회귀 솔루션을 선택하는 것이 좋으며 이는 차원에 다소 둔감합니다. Z
시안
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.