몬테카를로 / MCMC 샘플러가 구현되어 후방 분포의 고립 된 국소 최대치를 처리 할 수 ​​있습니까?


10

현재 여러 ODE로 구성된 모델의 매개 변수를 추정하기 위해 베이지안 접근법을 사용하고 있습니다. 추정 할 매개 변수가 15 개이므로 샘플링 공간이 15 차원이고 구배 분포를 검색 한 결과 극도로 낮은 확률로 큰 영역에 의해 고립 된 국소 극대값이 많은 것 같습니다.

이것은 하나의 체인이 하나의 로컬 최대 값에서 "점프"하여 실수로 다른 최대 값 중 하나에 부딪 칠 가능성이 거의 없기 때문에 내 Monte Carlo 체인의 혼합 문제로 이어집니다.

이 문제를 다루는 논문을 쉽게 찾을 수 있다는 점에서이 분야에 대한 많은 연구가있는 것 같지만 (아래 참조) 실제 구현을 찾는 것은 어렵습니다. 나는 분자 역학과 관련된 패키지만을 찾았지만 베이지안 추론은 아닙니다. 격리 된 로컬 최대 값을 처리 할 수있는 (MC) MC 샘플러 구현이 있습니까?

내 ODE 모델이 작성된 Matlab과 함께 작업해야하므로 Matlab에 관한 제안을 환영합니다 ;-). 그러나 다른 언어로 된 "킬러 앱"이 있으면 PI가 ;-)로 전환하도록 설득 할 수 있습니다.

저는 현재 Haario, Laine et al.에 의해 작성된 Delayed-Rejection / Adaptive Monte Carlo 샘플러를 사용하고 있습니다. 그리고 그것은 지금까지 내가 찾을 수있는 유일한 샘플러입니다. 표준 Metropolis-Hastings 알고리즘보다 더 정교합니다.


주목할만한 접근법은 다음과 같습니다.

EDIT 2017-Mar-07에서 그 동안 배운 내용으로 업데이트되었습니다.

시작점이 다른 여러 유사한 체인

체 인간 적응. 여러 독립 체인에 의해 생성 된 풀링 된 샘플의 경험적 공분산 행렬을 사용하여 체인 제안 분포의 공분산 행렬을 업데이트합니다. (1)

템퍼링이 다른 여러 체인

템퍼링 : 일종의 "온도"는 사후 풍경을 수정하여 체인 혼합이 더 가능성이있는 것으로 보입니다. (나는 아직 이것에 많이 들어 가지 않았다) (1) 템퍼링의 목적은 사후 확률 분포에 의해 형성된 (고차원) 확률 경관을 평평하게하는 것이다. 일반적으로 사후 확률을 의 거듭 제곱으로 구함으로써 이루어지며 , 사후 조경은 (3, p.298)로 평탄화됩니다. 이것은 데이터 가 주어지면 템퍼링 된 사후 확률이 계산 된다는 것을 의미 하는 상태 의 사후 확률 대신에1/TT>1p(θD)θD

p(θD)1/T(p(Dθ)p(θ))1/T

가 높을수록 확률 경관의 평평하고 넓은 피크가됩니다. 따라서 값이 높을수록 샘플러가 한 로컬 최대 값에서 다른 최대 값으로 전환 할 확률이 높아집니다. 그러나 는 경우 사후 분포를 검색하지 않습니다 . 따라서 에서 샘플링 할 수 있도록 해당 분포의 샘플 체인을 사용해야합니다 .TTp(θD)1/TT1p(θD)

그 분포의 강화 된 버전으로부터의 샘플을 고려할 때, 원래의 강화되지 않은 후방 분포로부터의 샘플은 몇 가지 방법에 의해 수득 될 수있다 :

  • Metropolis 커플 링 MCMC 여러 체인을 동시에 실행합니다. 각 체인은 서로 다르지만 상수 값은 입니다. 확률 적으로 두 체인의 상태를 전환하십시오. 체인의 샘플 만TT=1

  • 작은 세계 MCMC. 샘플러는 두 제안 사이를 전환합니다. 분산이 적은 제안서 배포가 사용되는 경우가 많고, 분산이 큰 제안서가 거의 사용되지 않는 경우가 많습니다. 이 두 제안 중에서 선택하는 것은 확률 론적입니다. 차이가 큰 제안은 또 다른 체인에서 도출 될 수 있으며, 이는 매우 큰 점프 만하며, 샘플 공간을 최대한 거친 방식으로 샘플링합니다. (2,7)

해밀턴 몬테카를로 (HMC)

잘 모르겠지만 JAGS의 UTS (No-U-Turn) 샘플러 (NUTS) 가 사용하는 것 같습니다. 심판 참조. (8). Alex Rogozhnikov는 주제에 대한 시각적 튜토리얼 을 만들었습니다 .


참고 문헌 :

(1) Craiu et al., 2009 : Thy Neighbor로부터 배우기 : Parallel-Chain 및 Regional Adaptive MCMC. J Am Stat Assoc 104 : 488, pp. 1454-1466. http://www.jstor.org/stable/40592353

(2) Guam et al., 2012 : 템퍼링 기능이있는 소형 세계 MCMC : Ergocity 및 Spectral gap. https://arxiv.org/abs/1211.4675 ( arXiv에서만 )

(3) : Brooks et al. (2011). Markov Chain Monte Carlo 핸드북. CRC 프레스.

(4) : Altekar et al. (2004) : 병렬 메트로폴리스는 베이지안 계통 발생 학적 추론을 위해 Markov 사슬 Monte Carlo를 결합했다. 생물 정보학 20 (3) 2004, 407–415 페이지, http://dx.doi.org/10.1093/bioinformatics/btg427

(5) : Geyer CJ (1991) Markov 체인 Monte Carlo 최대 가능성. 에서 : Keramidas (ed.), 컴퓨팅 과학 및 통계 : 인터페이스에 관한 23 번째 심포지엄의 절차 . 인터페이스 파운데이션, Fairfax Station, 156-163 페이지.

(6) : Gilks ​​WR 및 Roberts GO (1996). MCMC 개선 전략 에서 : Gilks ​​WR, Richardson S 및 Spiegelhalter (eds) Markov chain Monte Carlo Practice . 채프먼 앤홀, p. 89–114.

(7) : Guan Y, et al. 작은 세계에서 마르코프 체인 몬테 카를로. 통계 및 컴퓨팅 (2006) 16 (2), pp. 193-202. http://dx.doi.org/10.1007/s11222-006-6966-6

(8) : Hoffmann M 및 Gelman A (2014) : No-U-Turn 샘플러 : Hamiltonian Monte Carlo에서 경로 길이를 적응 적으로 설정 기계 학습 연구 저널 , 15, pp. 1351-1381. https://arxiv.org/abs/1111.4246

답변:


1

위의 전략 중 어느 것도 다중 최적화에 특히 적합하지 않습니다.

더 나은 선택은 Differential Evolution MCMC 및 DREAM과 같은 파생 MCMC입니다. 이 알고리즘은 제안을 생성하기 위해 혼합 된 여러 MCMC 체인과 함께 작동합니다. 각 옵티마에 체인이 하나 이상 있으면 옵티마 사이를 효율적으로 이동할 수 있습니다. R의 구현은 https://cran.r-project.org/web/packages/BayesianTools/index.html에서 제공됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.