최대 분포 모수는 사후 분포에서 벗어남


11

추정 할 모델 매개 변수 고려할 때 데이터 의 확률에 대한 가능성 함수 이 있습니다. 모수에 대해 사전에 평평하다고 가정하면, 그 가능성은 사후 확률에 비례합니다. 이 확률을 샘플링하기 위해 MCMC 방법을 사용합니다.(|θ)θ아르 자형

결과 수렴 체인을 살펴보면 최대 가능성 매개 변수가 사후 분포와 일치하지 않는 것으로 나타났습니다. 예를 들어, 모수 중 하나에 대한 주변 사후 확률 분포는 일 수 있지만 최대 우도 지점 의 값 은 , 기본적으로 MCMC 샘플러가 통과하는 의 최대 값입니다 .θ0(μ=0,σ2=1)θ0θ0미디엄4θ0

이것은 실제 결과가 아닌 예시적인 예입니다. 실제 분포는 훨씬 더 복잡하지만 일부 ML 모수는 유사하게 각각의 사후 분포에서 p- 값을 갖지 않습니다. 내 매개 변수 중 일부가 제한되어 있습니다 (예 : ). 경계 내에서, 사전은 항상 균일합니다.0θ11

내 질문은 :

  1. 그러한 편차가 문제 그 자체 입니까? 분명히 ML 매개 변수가 소외된 후방 분포 각각의 최대치를 정확히 일치시킬 것으로 기대하지는 않지만 직관적으로 꼬리에서 깊숙이 발견되지 않아야한다고 생각합니다. 이 편차가 자동으로 결과를 무효화합니까?

  2. 이것이 반드시 문제가되는지 여부에 관계없이 데이터 분석의 특정 단계에서 특정 병리의 증상 일 수 있습니까? 예를 들어, 부정확하게 수렴 된 체인, 잘못된 모델 또는 매개 변수의 너무 엄격한 경계로 인해 이러한 편차가 발생할 수 있는지에 대한 일반적인 설명을 할 수 있습니까?

답변:


15

평평한 선행으로, 후부는 일정 할 가능성과 동일합니다. 그러므로

  1. MLE (최적화기로 추정 됨)는 MAP와 동일해야합니다 (MCMC로 추정 된 최대 사후 값 = 사후 다변량 모드). 같은 값을 얻지 못하면 샘플러 나 옵티 마이저에 문제가있는 것입니다.

  2. 복잡한 모델의 경우 한계 모드가 MAP과 다른 것이 일반적입니다. 예를 들어 매개 변수 간의 상관 관계가 비선형 인 경우에 발생합니다. 이것은 완벽하지만, 한계 모드는 가장 높은 후방 밀도의 포인트로 해석되어서는 안되며 MLE과 비교해서는 안됩니다.

  3. 그러나 귀하의 특정 경우에, 나는 후방이 이전 경계에 대해 달리는 것으로 의심됩니다. 이 경우 후방은 강하게 비대칭 적이므로 평균, sd로 해석하는 것은 의미가 없습니다. 이 상황에는 원칙적인 문제는 없지만 실제로는 모델의 잘못된 사양이나 잘못 선택된 사전에 대해 암시합니다.


15

물론 코드 또는 가능성 정의 또는 MCMC 구현 또는 MCMC 반복 횟수 또는 가능성 극대화의 수렴 ( 제이콥 소 콜라 )에 문제가 없다고 가정 할 때 이러한 인식 불일치에 대한 일반적인 설명이 있습니다 .

  1. θ|엑스(0,나는)θ220

  2. MAP 및 MLE이 실제로는 평평한 상태에서 혼란스러워 지지만, 모델의 상이한 파라미터의 한계 밀도는 대응하는 MLE (즉, MAP)로부터 멀리 떨어진 (마진) 모드를 가질 수있다.

  3. MAP는 사후 밀도가 가장 높은 매개 변수 공간의 위치이지만 MAP 주변에 대한 사후 무게 또는 부피의 표시를 전달하지는 않습니다. 매우 얇은 스파이크는 후방 무게가 없습니다. 이것은 또한 MCMC의 후부 탐사가 후부 모드를 식별하는 데 어려움을 겪을 수 있는 이유이기도 합니다.

  4. 대부분의 매개 변수가 제한되어 있다는 사실은 경계에서 발생하는 MAP = MLE의 일부 구성 요소로 이어질 수 있습니다.

MAP 추정기 의 비 베이 지적 성격 에 대한 논쟁은 Druihlet and Marin (2007) 을 참조하십시오 . 하나는 지배적 척도에 대한 이러한 추정자에 대한 의존성이며, 다른 하나는 (MLE와 달리) 매개 변수화에서 불변성이 부족하다는 것이다.

위의 포인트 1의 예로 짧은 R 코드가 있습니다.

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

이는 N = 100 차원에서 랜덤 워크 메트로폴리스-해 스팅 시퀀스를 모방합니다. MAP에서 로그 우도의 값은 -91.89이지만 방문한 우도는 결코 가깝지 않습니다.

> range(lik)
[1] -183.9515 -126.6924

시퀀스가 절대 관측치에 도달하지 않는다는 사실로 설명됩니다.

> range(dis)
[1]  69.59714 184.11525

3
OP는 코드 또는 가능성 정의 또는 MCMC 구현에 대한 걱정 외에도 ML 추정치를 얻는 데 사용 된 소프트웨어가 로컬 최적에 갇혀 있는지 여부에 대해 걱정할 수 있다고 덧붙였습니다. stats.stackexchange.com/questions/384528/…
Jacob Socolar
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.