머신 러닝 또는 딥 러닝 알고리즘을 사용하여 MCMC 기술의 샘플링 프로세스를 "향상"할 수 있습니까?


21

MCMC (Markov chain Monte Carlo) 방법에 대한 약간의 지식을 바탕으로 샘플링이 앞에서 언급 한 기술의 중요한 부분임을 이해합니다. 가장 일반적으로 사용되는 샘플링 방법은 Hamiltonian과 Metropolis입니다.

보다 효율적인 MCMC 샘플러를 구성하기 위해 머신 러닝 또는 딥 러닝을 활용할 수있는 방법이 있습니까?


5
어떤 종류의 "개선"을 염두에두고 기계 학습의 역할을 어떻게 알 수 있습니까?

2
일반적으로 MCMC는 일반적으로 분석 솔루션을 찾기에는 너무 복잡한 닫힌 양식이없는 표현식에서 값을 추정하는 것을 포함합니다. 다변량 군집화 (또는 유사한 방법)를 사용하여 더 간단한 다변량 밀도를 추정 할 수 있지만 MCMC를 사용하는 대신 다른 방법으로 볼 수 있습니다.
AdamO

1
@AdamO, 왜 대답으로 변환하지 않습니까? 우리가 여기에 도착할 수있는만큼 좋을 것 같습니다.
gung-Monica Monica 복원

@Tim 글쎄, 내가 읽은 것으로부터 MCMC는 추정량을 계산하기 위해 분포에서 표본을 추출합니다. MH 알고리즘은 무작위로 "위치"를 선택한 다음 허용 가능한 경우 주장합니다. ML이 대안 기술이 있는지 궁금합니다. 나는 그것이 모호하게 들린다는 것을 알고, 그것에 대해 사과한다. 그러나 나는 MCMC가 흥미 롭다는 것을 발견하고 나는 자기 공부에 의해 이론과 실제적인 적용을 붙잡고 자 노력하고있다.
스파

답변:


27

예. 다른 답변의 상태와 달리 비모수 및 (심한) 신경망과 같은 '일반적인'기계 학습 방법 은 더 나은 MCMC 샘플러를 생성하는 데 도움이 수 있습니다.

MCMC의 목표는 정규화되지 않은 대상 분포 에서 표본을 추출하는 것 입니다. 얻어진 샘플은 f 를 근사화하는데 사용되며 , 주로 f 하의 함수 (즉, 고차원 적분) 및 특히 f의 특성 (예를 들어 모멘트)의 기대치를 계산할 수있게한다 .f(x)fff

표본 추출은 일반적 으로 Hamiltonian Monte Carlo (HMC)와 같은 방법에 대해 많은 수의 및 그래디언트 평가가 필요합니다 . 경우 f는 평가 비용이 많이 드는, 또는 그라디언트를 사용할 수없는, 저렴 구축 때때로 가능하다 대리 기능 샘플링을 안내하는 데 도움 수 있으며, 대신에 평가 F (여전히 MCMC의 특성을 보존하는 방법을).fff

예를 들어, 정액 논문 ( Rasmussen 2003 )은 가우시안 프로세스 (비모수 함수 근사)를 사용하여 f 하고 근사 함수에 대해 HMC를 수행 하기 위해 근사치를 작성하고 f에 기반한 HMC의 수락 / 거부 단계 만 제안합니다 . 이렇게하면 원래 f 의 평가 횟수가 줄어들고 평가 하기에는 너무 비싼 PDF에서 MCMC를 수행 할 수 있습니다.logfff

대리 기능을 사용하여 MCMC 속도를 높이는 아이디어는 지난 몇 년 동안 대리 기능을 구축하고 여러 MCMC 방법과 효율적으로 / 적응 적으로 결합하여 ( '정확도를 유지하는 방식으로' MCMC 샘플링 중 '). 귀하의 질문과 관련하여,이 두 최신 논문은 고급 기계 학습 기술-랜덤 네트워크 ( Zhang et al. 2015 ) 또는 적응 식 학습 지수 커널 함수 ( Strathmann et al. 2015 )를 사용하여 대리 기능을 작성합니다.

HMC는 대리자로부터 혜택을받을 수있는 유일한 MCMC 형태는 아닙니다. 예를 들어, Nishiara et al. (2014) 는 다변량 스튜던트 분포를 앙상블 샘플러의 다 사슬 상태 에 피팅하여 목표 밀도의 근사치를 작성하고 이를 사용하여 일반화 된 형태의 타원형 슬라이스 샘플링 을 수행합니다 .t

이것들은 단지 예일뿐입니다. 일반적으로, (주로 함수 근사 밀도 추정의 영역)에서 별개의 ML 기법은 여러 정보를 추출하는 데 사용될 수 있습니다 MCMC 샘플러의 효율성을 개선한다. 이들의 실제적인 유용성 - 예 : "초당 효과적인 독립 샘플"의 수로 측정 - 조건부 인 비싸거나 계산 다소 하드되며; 또한, 이러한 방법 중 많은 방법은 자체 또는 추가 지식을 조정하여 적용 가능성을 제한해야 할 수 있습니다.f

참고 문헌 :

  1. 라스무센, 칼 에드워드 "가장 비싼 베이지안 적분을 위해 하이브리드 몬테 카를로의 속도를 높이기위한 가우시안 프로세스." 베이지안 통계 7. 2003.

  2. 장, ,, 바박 샤 바바 및 홍 카이 자오. "임의의 염기로 대리 함수를 사용하는 해밀턴 몬테 카를로 가속." arXiv 프리 프린트 arXiv : 1506.05555 (2015).

  3. Strathmann, Heiko 등 "효율적인 커널 지수 군을 가진 그라디언트가없는 Hamiltonian Monte Carlo." 신경 정보 처리 시스템의 발전. 2015.

  4. Nishihara, Robert, Iain Murray 및 Ryan P. Adams. "일반화 된 타원형 슬라이스 샘플링이있는 병렬 MCMC." 기계 학습 연구 저널 15.1 (2014) : 2087-2112.


2
나열된 방법이 실제로 "기계 학습 방법"의 범주에 있는지 확실하지 않지만 표준 MCMC 방법 일뿐입니다 (행의 모호함 임). ML / DL 방법 인 것으로 보이는 유일한 것은 3 개 였으며 , 그 이후로 제목에서 "신경망"을 제거했습니다 (그리고 표준 ML 방법을 사용하는 것이 너무 느리다는 것을 텍스트에서 인정하는 것 같습니다).
Cliff AB

2
@CliffAB 감사합니다. 나는이 방법들 중 일부에 대해 선이 약간 흐릿하다는 것에 동의한다 (예를 들어, 4는 간단한 Student 's fit을 사용 하지만 그들의 방법 좀 더 복잡한 밀도 추정 기법을 사용할 수있다 ). 나머지는 GP와 같은 (비모수 적) 함수 근사 또는 밀도 추정, ML 기술을 고려하는지 여부에 따라 다릅니다. 충분하지 않으면 공정하지만 ML 기술 무엇인지 잘 모르겠습니다 . (OP는 MCMC를 개선하기 위해 ML 또는 DL 기술을 요구했다 .)t
lacerbi

1
@lacerbi 감사합니다. 추가 연구를 위해 암반으로 참조를 사용할 수있어 기쁩니다.
스파

6

두 가지 개념을 연결할 있는 방법 은 다변량 Metropolis Hastings 알고리즘입니다. 이 경우 목표 분포 (사후 분포)와 제안 분포 (일반적으로 다변량 정규 또는 t- 분포)가 있습니다.

잘 알려진 사실은 제안 배포가 사후 배포에서 멀어 질수록 샘플러의 효율성이 떨어진다는 것입니다. 따라서 일종의 기계 학습 방법을 사용하여 단순한 다변량 정규 / t 분포보다 실제 후방 분포에 더 잘 맞는 제안 분포를 구축한다고 상상할 수 있습니다.

그러나 이것이 효율성 향상이라는 것은 확실하지 않습니다. 딥 러닝을 제안함으로써 일종의 신경망 접근 방식에 관심이 있다고 가정합니다. 대부분의 경우,이 것이 훨씬 더 계산 비용이 전체 바닐라 MCMC 방법 자체보다. 마찬가지로, NN 방법 (또는 대부분의 기계 학습 방법)이 MCMC에 중요한 관측 공간 외부에 적절한 밀도를 제공하는 데 도움이되는 이유를 모르겠습니다 . 따라서 기계 학습 모델 구축과 관련된 계산 비용을 무시하더라도 샘플링 효율성을 향상시키는 데는 충분한 이유가 없습니다.


Cliff AB 나는 당신과 @AdamO가 다른 책에서 시간을 보내는 것보다 MCMC와 ML 개념을 명확히 해주 었다고 생각합니다. 여러분의 노력에 감사 드리며 더 깊이 탐구 할 수있는 몇 가지 영역을 언급하게되어 기쁩니다.
스파

@Sitherion 어떤 책을 언급하고 있습니까?
AdamO

@AdamO 현재 저는 Richard Sutton의 강화 학습과 Machine Learning : MCMC 장이 포함 된 Kevin Murphy의 확률 적 관점을 읽고 있습니다. 다양한 ML 및 Computational Statistics 저널의 출판물도 제공합니다.
스파

3

머신 러닝은 감독 또는 감독되지 않는 환경에서의 예측, 분류 또는 클러스터링과 관련이 있습니다. 반면에 MCMC는 확률 적 수치 방법을 사용하여 복잡한 간음 (일반적으로 닫힌 형태가없는)을 평가하는 데 관심이 있습니다. 대도시 샘플링은 가장 일반적으로 사용되는 방법이 아닙니다 . 실제로 이것은 확률 적 구성 요소가 없는 유일한 MCMC 방법 입니다. 따라서 ML은이 경우 MCMC에 아무 것도 알리지 않습니다.

중요도 기반 샘플링 에는 확률 적 구성 요소 필요합니다. 일부 기본 가정에서는 Metropolis보다 효율적입니다. ML 방법을 사용하여이 확률 적 구성 요소를 추정 할 수 있습니다. 복잡한 고차원 가우시안 밀도를 추정하기위한 다변량 군집을 예로들 수 있습니다. 이 문제에 대한 비모수 적 접근 방식에는 익숙하지 않지만 흥미로운 개발 영역이 될 수 있습니다.

그럼에도 불구하고 ML은 나중에 수치 방법에 사용되는 고차원 복소 확률 모델을 추정하는 과정에서 뚜렷한 단계로 눈에 stands니다. 이 경우 ML이 MCMC를 어떻게 실제로 향상시키는 지 알 수 없습니다.


@AdamO에게 감사합니다. 적어도 지금은이 분야에 대해 훨씬 잘 이해하고 있습니다.
스파

1
OP의 실제 질문에 대한 해석에 따라이 답변이 불완전하고 부정확 할 수 있다고 생각합니다. 같은 비모수 및 신경 네트워크와 같은 일반적인 ML 방법은 있습니다 MCMC 샘플러를 개선하는 데 사용됩니다. 실제로, 그것은 활발한 연구 분야입니다. 내 대답과 그 안의 참조를 참조하십시오.
lacerbi

1
p

감사합니다 @AdamO. 그래도 솔직히 말해서, 나는 당신의 설명이나 그것이 어떻게 대답을 올바르게 만드는지 이해하지 못합니다. 예를 들어, Metropolis에 "확률 적 구성 요소가 없다"고 할 때의 의미를 이해하지 못합니다. 또한 ML이 샘플링에 도움을 줄 수 없다고 말합니다.이 답변은 고차원 적분의 추정으로 샘플링의 좁은 정의에서도 마찬가지입니다.
lacerbi

3
@AdamO : 가우스 프로세스, 커널 방법, 임의 기준 네트워크. 일반적으로 모든 형태의 함수 근사 또는 밀도 추정이 작동합니다. 이러한 ML 방법하지 않은 경우, 나는 확실하지 오전 입니다 ... (방공호 ML에 대해 물었다하시기 바랍니다 참고 또는 DL 방법). 또한 위에서 요청한대로 Metropolis에 확률 적 구성 요소가 없다고 썼을 때의 의미를 설명해 주시겠습니까? 감사!
lacerbi

0

전산 물리학에서 저자가 제한된 분포를 사용하여 확률 분포를 모델링 한 다음 효율적인 몬테 카를로 업데이트 arXiv : 1610.02746 을 제안하는 일부 최근 연구가있었습니다 . 여기서 아이디어는 위의 @lacerbi가 제공 한 참조와 매우 유사합니다.

다른 시도 1702.08586 에서, 저자는 유명한 클러스터 Monte Carlo 업데이트를 수행 (및 발견) 할 수있는 Boltzmann Machine을 명시 적으로 구성했습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.