최대 a-posteriori 추정이 가능한 경우 MCMC 기반 방법이 적절합니까?


13

많은 실제 응용 분야에서, MCMC 기반 방법은 사후가 분석적 임에도 불구하고 매개 변수를 추정하는 데 사용됩니다 (예를 들어, 선행 기술이 공액 이었기 때문에). 저에게는 MCMC 기반 견적 도구보다는 MAP 견적 도구를 사용하는 것이 더 합리적입니다. MCMC가 왜 분석 후부에서 여전히 적절한 방법인지 지적 할 수 있습니까?


2
실제로 이것의 예를 들어 줄 수 있습니까? 이전의 켤레조건부 켤레 와 는 다릅니다 . 많은 깁스 샘플링 어플리케이션에서, 선택된 우선 순위는 조건부 켤레이지만, 그 자체는 켤레가 아닙니다. 예를 들어 Latent Dirichlet Allocation을 고려하십시오.
guy

4
MAP이 이것과 어떤 관련이 있는지 확실하지 않습니다. 베이 즈 추정기는 사후 모드가 아니라 사후 평균입니다. 우선 순위가 켤레가 아닌 경우에도 MAP 추정기를 얻기 위해 일부 최적화를 수행 할 수 있습니다. STAN은 이전에 거의 또는 전혀이를 위해이를 수행합니다. MCMC의 요점은 MAP 추정기보다 훨씬 많은 정보를 갖는 사후 분포를 추정하는 것입니다.
guy

답변:


12

이 경우 MCMC를 사용할 필요가 없습니다. Markov Chain Monte-Carlo (MCMC)는 분포에서 값을 생성하는 데 사용되는 방법입니다. 목표 분포와 동일한 정지 분포를 갖는 자동 상관 값의 Markov 체인을 생성합니다. 이 방법은 대상 분포가 분석 형식 인 경우에도 원하는 것을 얻는 데 여전히 효과적입니다. 그러나 이와 같은 경우에는 계산이 덜 간단하고 계산 집약적 인 방법이 있습니다.이 방법은 훌륭한 분석 형식을 가진 후자를 처리합니다.

사후 분포가 이용 가능한 분석 형태를 갖는 경우, 표준 미적분 기법을 사용하여 분포로부터 최적화함으로써 파라미터 추정치 (예를 들어, MAP)를 얻을 수있다. 대상 분포가 충분히 단순하면 모수 추정기에 대해 닫힌 형태 솔루션을 얻을 수 있지만 그렇지 않은 경우에도 일반적으로 간단한 반복 기법 (예 : Newton-Raphson, gradient-descent 등)을 사용하여 주어진 입력 데이터에 대한 파라미터 추정을 최적화합니다. 대상 분포의 Quantile 함수에 대한 분석 양식이 있고 분포에서 값을 생성해야하는 경우 역변환 샘플링을 통해이를 수행 할 수 있습니다.MCMC보다 계산 집약도가 낮으며 복잡한 자동 상관 패턴이있는 값 대신 IID 값을 생성 할 수 있습니다.

이를 감안할 때 처음부터 프로그래밍하는 경우 대상 배포에 사용 가능한 분석 형식이있는 경우 MCMC를 사용하는 이유는 없습니다. 그렇게 할 수있는 유일한 이유는 MCMC에 대한 일반 알고리즘이 이미 작성되어 있으며 최소한의 노력으로 구현할 수 있고 분석 형식을 사용하는 효율성이 필요한 수학을 수행하는 노력보다 중요하다고 판단하기 때문입니다. 실제 상황에서는 MCMC 알고리즘이 이미 설정되어 있고 최소한의 노력으로 구현할 수있는 일반적으로 다루기 어려운 문제를 처리하게됩니다 (예 : 데이터 분석을 수행하는 경우).RStan). 이러한 경우 문제에 대한 분석 솔루션을 도출하는 것보다 기존 MCMC 방법을 실행하는 것이 가장 쉬울 수 있지만 후자는 작업에 대한 점검으로 사용될 수 있습니다.


10

분석 후부 라고 부르는 것이 확실하지 않으므로이 분석으로 인해 MCMC를 사용할 수 없습니다. 이 설정에서 분석 을 이해하는 방법 인 정규화 상수를 포함하여 닫힌 형태로 제공되는 사후 분포의 경우에도 최소화 문제를 해결하여 Bayes 추정값을 닫힌 형태로 사용할 수있는 이유는 없습니다. 는 손실 함수에 따라 크게 달라집니다.π(θ)

minδΘL(θ,δ)π~(θ)f(x|θ)dθ
π~()π()

정규화 상수 를 사용할 수없는 경우,

π~(θ)dθ
사후 평균 또는 중간 또는 심지어 [정수를 알 필요가없는] 모드를 찾는 경우가 대부분 진행됩니다. MCMC 알고리즘을 통해. 예를 들어, 관절 밀도가 주어 지면 , 에 의해 고무 알리 미카 하크의 접합부 )가 적절히 정규화 (실제로이다 수 있으나 : 조건부 기대 의 소정의 이 밀도에 따라x,y(0,1)Φ - 1 ( X ) Y = Y Φ ( . )

fθ(x,y)=1+θ[(1+x)(1+y)3]+θ2(1x)(1y))[1θ(1x)(1y)]3θ(1,1)
Φ1(X)Y=yΦ(.)일반 cdf이며 닫힌 형식으로 사용할 수 없습니다. 그러나 이것은 주요 관심의 문제이다 .

손실 함수에 해당하지 않으며 밀도에 대한 닫힌 형태의 표현은 상수까지도 MAP를 찾지 못하기 때문에 최대 후부 추정량은 베이지안 설정에서 가장 자연스러운 추정량 은 아닙니다. 반드시 쉬운. 또는 관련 MAP을 사용하십시오.


2

내가 읽으 면서이 질문은 다소 직교하는 두 가지 질문을하고 있습니다. 하나는 후방 수단보다 MAP 추정기를 사용해야하고, 다른 하나는 후방이 분석적 형태 인 경우 MCMC를 사용해야하는지 여부입니다.

이론적 관점에서 볼 때, 사후 수단에 대한 MAP 추정기와 관련하여, 사후 답변은 @Xian이 그의 답변에 언급 한 것처럼 일반적으로 선호됩니다. MAP 추정기의 실질적인 이점은, 특히 후방이 닫힌 형태가 아닌보다 전형적인 경우에, 후방 평균의 추정치보다 훨씬 더 빨리 (즉, 몇 자릿수) 계산 될 수 있다는 것이다. 후부가 대략 대칭 인 경우 (종종 큰 표본 크기에서 많은 문제가 발생하는 경우), MAP 추정치는 사후 평균에 매우 가깝습니다. 따라서 MAP의 매력은 실제로 사후 평균의 매우 저렴한 근사치가 될 수 있다는 것입니다.

정규화 상수를 아는 것이 사후 모드를 찾는 데 도움이되지 않으므로, 사후에 닫힌 양식 솔루션을 갖는 것은 기술적으로 사후를 특정 분포로 인식하는 경우를 제외하고 MAP 추정치를 찾는 데 도움이되지 않습니다. 우리는 그것이 모드라는 것을 알고 있습니다.

두 번째 질문과 관련하여, 사후 분포가 닫힌 형태 인 경우 일반적으로 MCMC 알고리즘을 사용할 이유가 없습니다. 당신이 사후 배포 닫힌 형태로 솔루션을 가지고 있지만, 일부 기능의 평균에 대한 닫힌 형태를 가지고 있지 않은 경우 이론적으로, 그리고 걸릴 수없는이 폐쇄 된 형태의 배포에서 직접 그립니다, 다음 하나는 MCMC 알고리즘로 전환 할 수도 있습니다. 그러나 나는이 상황에 대해 전혀 모른다.


1

폐쇄 형 솔루션이 존재하더라도 MCMC 방법이 반드시 부적절한 것은 아니라고 주장 합니다. 분석 솔루션이 존재할 때 분명히 좋습니다. 일반적으로 빠르기 때문에 수렴 등에 대한 우려를 피할 수 있습니다.

반면에 일관성도 중요합니다. 기술에서 기술로 전환하면 프레젠테이션이 복잡해집니다. 기껏해야 청중을 실질적인 결과와 혼동 시키거나 혼란스럽게 만들 수있는 외적인 세부 사항이 있으며, 최악의 경우 결과를 편향하려는 시도처럼 보일 수 있습니다. 폐쇄 형 솔루션을 허용하는 모델이 여러 개있는 경우 꼭 필요한 것은 아니지만 동일한 MCMC 파이프 라인을 통해 모든 모델을 실행하는 것이 좋습니다.

나는 이것과 더불어 관성 ( "우리는 작동하는이 스크립트를 가지고있다")이 당신이보고있는 것의 대부분을 설명한다고 생각한다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.