MCMC (Markov chain Monte Carlo) 방법에 대한 약간의 지식을 바탕으로 샘플링이 앞에서 언급 한 기술의 중요한 부분임을 이해합니다. 가장 일반적으로 사용되는 샘플링 방법은 Hamiltonian과 Metropolis입니다.
보다 효율적인 MCMC 샘플러를 구성하기 위해 머신 러닝 또는 딥 러닝을 활용할 수있는 방법이 있습니까?
MCMC (Markov chain Monte Carlo) 방법에 대한 약간의 지식을 바탕으로 샘플링이 앞에서 언급 한 기술의 중요한 부분임을 이해합니다. 가장 일반적으로 사용되는 샘플링 방법은 Hamiltonian과 Metropolis입니다.
보다 효율적인 MCMC 샘플러를 구성하기 위해 머신 러닝 또는 딥 러닝을 활용할 수있는 방법이 있습니까?
답변:
예. 다른 답변의 상태와 달리 비모수 및 (심한) 신경망과 같은 '일반적인'기계 학습 방법 은 더 나은 MCMC 샘플러를 생성하는 데 도움이 될 수 있습니다.
MCMC의 목표는 정규화되지 않은 대상 분포 에서 표본을 추출하는 것 입니다. 얻어진 샘플은 f 를 근사화하는데 사용되며 , 주로 f 하의 함수 (즉, 고차원 적분) 및 특히 f의 특성 (예를 들어 모멘트)의 기대치를 계산할 수있게한다 .
표본 추출은 일반적 으로 Hamiltonian Monte Carlo (HMC)와 같은 방법에 대해 많은 수의 및 그래디언트 평가가 필요합니다 . 경우 f는 평가 비용이 많이 드는, 또는 그라디언트를 사용할 수없는, 저렴 구축 때때로 가능하다 대리 기능 샘플링을 안내하는 데 도움 수 있으며, 대신에 평가 F (여전히 MCMC의 특성을 보존하는 방법을).
예를 들어, 정액 논문 ( Rasmussen 2003 )은 가우시안 프로세스 (비모수 함수 근사)를 사용하여 f 를 하고 근사 함수에 대해 HMC를 수행 하기 위해 근사치를 작성하고 f에 기반한 HMC의 수락 / 거부 단계 만 제안합니다 . 이렇게하면 원래 f 의 평가 횟수가 줄어들고 평가 하기에는 너무 비싼 PDF에서 MCMC를 수행 할 수 있습니다.
대리 기능을 사용하여 MCMC 속도를 높이는 아이디어는 지난 몇 년 동안 대리 기능을 구축하고 여러 MCMC 방법과 효율적으로 / 적응 적으로 결합하여 ( '정확도를 유지하는 방식으로' MCMC 샘플링 중 '). 귀하의 질문과 관련하여,이 두 최신 논문은 고급 기계 학습 기술-랜덤 네트워크 ( Zhang et al. 2015 ) 또는 적응 식 학습 지수 커널 함수 ( Strathmann et al. 2015 )를 사용하여 대리 기능을 작성합니다.
HMC는 대리자로부터 혜택을받을 수있는 유일한 MCMC 형태는 아닙니다. 예를 들어, Nishiara et al. (2014) 는 다변량 스튜던트 분포를 앙상블 샘플러의 다 사슬 상태 에 피팅하여 목표 밀도의 근사치를 작성하고 이를 사용하여 일반화 된 형태의 타원형 슬라이스 샘플링 을 수행합니다 .
이것들은 단지 예일뿐입니다. 일반적으로, (주로 함수 근사 밀도 추정의 영역)에서 별개의 ML 기법은 여러 정보를 추출하는 데 사용될 수 있습니다 MCMC 샘플러의 효율성을 개선한다. 이들의 실제적인 유용성 - 예 : "초당 효과적인 독립 샘플"의 수로 측정 - 조건부 인 비싸거나 계산 다소 하드되며; 또한, 이러한 방법 중 많은 방법은 자체 또는 추가 지식을 조정하여 적용 가능성을 제한해야 할 수 있습니다.
참고 문헌 :
라스무센, 칼 에드워드 "가장 비싼 베이지안 적분을 위해 하이브리드 몬테 카를로의 속도를 높이기위한 가우시안 프로세스." 베이지안 통계 7. 2003.
장, ,, 바박 샤 바바 및 홍 카이 자오. "임의의 염기로 대리 함수를 사용하는 해밀턴 몬테 카를로 가속." arXiv 프리 프린트 arXiv : 1506.05555 (2015).
Strathmann, Heiko 등 "효율적인 커널 지수 군을 가진 그라디언트가없는 Hamiltonian Monte Carlo." 신경 정보 처리 시스템의 발전. 2015.
Nishihara, Robert, Iain Murray 및 Ryan P. Adams. "일반화 된 타원형 슬라이스 샘플링이있는 병렬 MCMC." 기계 학습 연구 저널 15.1 (2014) : 2087-2112.
두 가지 개념을 연결할 수 있는 방법 은 다변량 Metropolis Hastings 알고리즘입니다. 이 경우 목표 분포 (사후 분포)와 제안 분포 (일반적으로 다변량 정규 또는 t- 분포)가 있습니다.
잘 알려진 사실은 제안 배포가 사후 배포에서 멀어 질수록 샘플러의 효율성이 떨어진다는 것입니다. 따라서 일종의 기계 학습 방법을 사용하여 단순한 다변량 정규 / t 분포보다 실제 후방 분포에 더 잘 맞는 제안 분포를 구축한다고 상상할 수 있습니다.
그러나 이것이 효율성 향상이라는 것은 확실하지 않습니다. 딥 러닝을 제안함으로써 일종의 신경망 접근 방식에 관심이 있다고 가정합니다. 대부분의 경우,이 것이 훨씬 더 계산 비용이 전체 바닐라 MCMC 방법 자체보다. 마찬가지로, NN 방법 (또는 대부분의 기계 학습 방법)이 MCMC에 중요한 관측 공간 외부에 적절한 밀도를 제공하는 데 도움이되는 이유를 모르겠습니다 . 따라서 기계 학습 모델 구축과 관련된 계산 비용을 무시하더라도 샘플링 효율성을 향상시키는 데는 충분한 이유가 없습니다.
머신 러닝은 감독 또는 감독되지 않는 환경에서의 예측, 분류 또는 클러스터링과 관련이 있습니다. 반면에 MCMC는 확률 적 수치 방법을 사용하여 복잡한 간음 (일반적으로 닫힌 형태가없는)을 평가하는 데 관심이 있습니다. 대도시 샘플링은 가장 일반적으로 사용되는 방법이 아닙니다 . 실제로 이것은 확률 적 구성 요소가 없는 유일한 MCMC 방법 입니다. 따라서 ML은이 경우 MCMC에 아무 것도 알리지 않습니다.
중요도 기반 샘플링 에는 확률 적 구성 요소 가 필요합니다. 일부 기본 가정에서는 Metropolis보다 효율적입니다. ML 방법을 사용하여이 확률 적 구성 요소를 추정 할 수 있습니다. 복잡한 고차원 가우시안 밀도를 추정하기위한 다변량 군집을 예로들 수 있습니다. 이 문제에 대한 비모수 적 접근 방식에는 익숙하지 않지만 흥미로운 개발 영역이 될 수 있습니다.
그럼에도 불구하고 ML은 나중에 수치 방법에 사용되는 고차원 복소 확률 모델을 추정하는 과정에서 뚜렷한 단계로 눈에 stands니다. 이 경우 ML이 MCMC를 어떻게 실제로 향상시키는 지 알 수 없습니다.
전산 물리학에서 저자가 제한된 분포를 사용하여 확률 분포를 모델링 한 다음 효율적인 몬테 카를로 업데이트 arXiv : 1610.02746 을 제안하는 일부 최근 연구가있었습니다 . 여기서 아이디어는 위의 @lacerbi가 제공 한 참조와 매우 유사합니다.
다른 시도 1702.08586 에서, 저자는 유명한 클러스터 Monte Carlo 업데이트를 수행 (및 발견) 할 수있는 Boltzmann Machine을 명시 적으로 구성했습니다 .