MCMC의 성능 벤치 마크


14

일련의 테스트 밀도에서 여러 가지 다른 알고리즘의 성능을 비교하는 MCMC 방법에 대한 대규모 연구가 있었습니까? Rios and Sahinidis의 논문 (2013) 과 비슷한 것을 생각 하고 있는데 , 이는 여러 클래스의 테스트 기능에 대한 많은 파생없는 블랙 박스 최적화 프로그램을 철저히 비교 한 것입니다.

MCMC의 경우, 성능은 예를 들어 밀도 평가 당 유효 샘플 수 (ESS) 또는 다른 적절한 메트릭으로 추정 할 수 있습니다.

몇 가지 의견 :

  • 성능은 대상 PDF의 세부 사항 에 크게 의존 하지만, 유사한 (아마도 동일하지는 않음) 최적화에 대한 주장이지만, 벤치마킹 최적화를 다루는 벤치마킹 기능, 스위트, 경쟁, 논문 등이 많이 있습니다. 알고리즘.

  • 또한 MCMC는 사용자에게 훨씬 더 많은주의와 조정이 필요하다는 점에서 최적화와 다릅니다. 그럼에도 불구하고, 튜닝을 거의 또는 전혀 필요로하지 않는 몇 가지 MCMC 방법이 있습니다 : 번인 단계에서, 샘플링 동안 적응하는 방법 또는 여러 상호 작용하는 체인을 진화시키고 사용하는 다중 상태 ( 앙상블 이라고도 함 ) 방법 (예 : Emcee ) 샘플링을 안내하는 다른 체인의 정보.

  • 특히 표준과 다중 상태 (일명 앙상블) 방법의 비교에 관심이 있습니다. 다중 상태의 정의에 대해서는 MacKay 책의 30.6 절을 참조하십시오 .

엑스

  • 이 질문은 여기서 시작되었습니다 .

최신 정보

  • 다중 상태 일명 앙상블 방법에 대한 흥미로운 내용 은 Gelman의 블로그에서 Bob Carpenter가 작성한 이 블로그 게시물 과이 CV 게시물을 언급하는 내 의견을 참조하십시오.

답변:


5

일부 온라인 검색 후, 최적화 문헌에서 찾을 수있는 것과 유사한 기존 MCMC 방법의 포괄적 인 벤치 마크가 존재하지 않는다는 인상을 받았습니다. (여기서 잘못되어 기쁘다.)

적용된 도메인 내의 특정 문제에 대한 몇 가지 MCMC 방법을 쉽게 비교할 수 있습니다. 이 정보를 모을 수 있다면 괜찮을 것입니다. 그러나 이러한 벤치 마크의 품질은 종종 불충분합니다 (예 :보고 된 메트릭스가 부족하거나 설계 선택이 잘못됨).

다음에는 내가 찾은 가치있는 기여라고 생각하는 내용을 게시하겠습니다.

  • Nishihara, Murray 및 Adams, 일반화 된 타원형 슬라이스 샘플링을 사용한 병렬 MCMC , JMLR (2014). 저자는 새로운 다중 상태 방법 인 GESS를 제안하고 7 가지 테스트 기능에 대한 6 가지 다른 단일 상태 및 다중 상태 방법과 비교를 수행합니다. 성능을 초당 ESS (유효 샘플 크기) 및 기능 평가로 평가합니다.

  • SamplerCompare 는 MCMC 알고리즘 벤치마킹이라는 목표를 가진 R 패키지입니다. 원래의 질문에서 정확히 무엇을 묻었습니까 ? 불행히도 패키지에는 몇 가지 테스트 기능 만 포함되어 있습니다. 첨부 된 논문은 실제 벤치 마크를보고하지 않습니다 (작은 예). 후속 조치가 없었던 것 같습니다.

Thompson, Madeleine B. "샘플러 소개" 통계 소프트웨어 저널 43.12 (2011) : 1-10 ( 링크 ).

  • 다중 상태 일명 앙상블 방법에 대한 흥미로운 내용 은 Gelman의 블로그에서 Bob Carpenter가 작성한 이 블로그 게시물 과이 CV 게시물을 언급하는 내 의견을 참조하십시오.

두 번째 링크가 작동하지 않습니다. 작동중인 링크로 변경할 수 있습니까?
Tim

당신은 오는 12 월 2017 년 논문에보고를 할 수 있습니다 : 라이언 터너 & 브래디 닐, 얼마나 잘 당신의 샘플러 정말 작동합니까? MCMC 알고리즘에 대한 좋은 벤치 마크를 제시하는이 문제에 대한 정확한 해결책을 제공하는 것 같습니다.
Carl

2

MCMC 분석법에 대한 종합적인 벤치 마크가 없다는 평가에 동의합니다. 모든 MCMC 샘플러에는 장단점이 있으며 문제가 매우 심각하기 때문입니다.

일반적인 베이지안 모델링 설정에서는 데이터가 다른 경우 다양한 혼합 속도로 동일한 샘플러를 실행할 수 있습니다. 앞으로 다양한 MCMC 샘플러에 대한 포괄적 인 벤치 마크 연구가 나오면 그 결과가 제시된 예를 벗어난 곳에 적용 할 수 있다고 믿지 않을 것입니다.

샘플링 품질을 평가하기위한 ESS 사용과 관련하여 ESS는 샘플에서 추정 할 수량에 따라 달라집니다. 표본의 평균을 찾으려면 획득 한 ESS가 25 번째 Quantile을 추정하려는 경우와 다릅니다. 관심 수량이 고정되어 있으면 ESS는 샘플러를 비교하는 합리적인 방법입니다. 더 나은 아이디어는 단위 시간당 ESS입니다.

ESS의 한 가지 단점은 다변량 추정 문제의 경우, ESS는 추정 프로세스의 모든 상호 상관을 무시하고 각 구성 요소에 대해 개별적으로 유효 샘플 크기를 리턴한다는 것입니다. 에 최근 논문 다변량 ESS 제안되었으며 구현 R패키지 mcmcse함수로 multiESS. 이 방법이 coda패키지 의 ESS와 어떻게 비교되는지는 확실하지 않지만 처음에는 일 변량 ESS 방법보다 더 합리적인 것으로 보입니다.


2
(+1) 답변 주셔서 감사합니다. 나는 당신의 몇 가지 요점에 동의하지만 여전히 그러한 벤치 마크에서 일부 정보를 얻을 수 있다고 생각합니다. -하지만 하나는 벤치 마크의 결과를 사용하는 방법은 그들에게 미래의 선택을 안내하는 몇 가지 증거가 더 나은 증거보다. ESS에 대한 좋은 점. 다중 상태 란 다변량이 아니라 다중 상태 (또는 원하는 경우 다중 체인)를 의미합니다. 원래 질문에서 MacKay의 책을 인용하십시오.
lacerbi

2
일반적으로 일부 샘플러는 멀티 모달 분포 (MH, Gibbs)에서 성능이 좋지 않은 것으로 알려져 있으며 일부는 볼록하지 않은지지 (Hamiltonian MC)에 나쁩니다. 다른 한편으로, 높은 차원의 문제에 대해 Hamiltonian MC는 잘 작동하고 다중 모달 분포에 대해서는 시뮬레이션 된 템퍼링 등이 좋습니다. 이를 위해 임의의 결과는 일반적으로 해석되기 위해서는 벤치마킹 한 대상 분포 다른 다양한 클래스를 정의 할 수있다 (하위 지수 오목 로그 등).
Greenparker

1
예, 이것이 알고리즘 클래스의 벤치 마크를 구축하는 요점입니다. 예를 들어보기 글로벌 최적화를위한. MCMC의 벤치 마크는 최적화를 위해 기존 벤치 마크를 빌릴 수는 없습니다. 언급 한 MCMC 문제에 대해 구체적이고 일반적이며 관심있는 대상 밀도의 기능에 초점을 맞출 필요가 있습니다.
lacerbi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.