샘플링없이 고차원 적 추론 문제에서 불확실성 추정?

그라디언트 기반 최적화와 유전자 알고리즘의 조합을 사용하여 로그 최대의 전역 최대 값을 찾아 MAP 추정을 강력하게 수행 할 수있는 고차원 추론 문제 (약 2000 개의 모델 매개 변수)를 연구하고 있습니다.

MAP 추정값을 찾는 것 외에도 모델 매개 변수에 대한 불확실성을 추정 할 수 있기를 바랍니다.

우리는 매개 변수와 관련하여 로그 포 그라운드의 기울기를 효율적으로 계산할 수 있으므로 장기적으로 우리는 해밀턴 MCMC를 사용하여 샘플링을 수행하는 것을 목표로하고 있지만 현재는 비 샘플링 기반 추정에 관심이 있습니다.

내가 아는 유일한 접근 방식은 후변을 다변량 법선으로 근사하기 위해 모드에서 Hessian의 역을 계산하는 것입니다. 그러나 우리가 계산하더라도 $\sim 4\times10^{6}$ Hessian의 요소 나는 우리가 그 역을 찾을 수 없을 것이라고 확신합니다.

이런 경우에 어떤 종류의 접근 방식이 일반적으로 사용되는지 제안 할 수 있습니까?

감사!

편집 -문제에 대한 추가 정보

배경
이것은 큰 물리학 실험과 관련된 역 문제입니다. 우리는 일부 물리적 필드를 설명하는 2D 삼각 메쉬를 가지고 있으며 모델 매개 변수는 메쉬의 각 정점에서 해당 필드의 물리적 값입니다. 메쉬에는 약 650 개의 정점이 있으며 3 개의 필드를 모델링하므로 2000 개의 모델 매개 변수가 제공됩니다.

우리의 실험 데이터는 이러한 필드를 직접 측정하지는 않지만 필드의 복잡한 비선형 함수 인 수량에 대한 것입니다. 각기 다른 계측기마다 모델 파라미터를 실험 데이터의 예측에 매핑하는 예측 모델이 있으며, 예측과 측정 값의 비교는 로그 우도를 산출합니다.

그런 다음이 모든 다양한 계측기의 로그 우도를 요약하고 필드에 물리적 제약을 적용하는 로그 우선 값을 추가합니다.

결과적으로이 '모델'이 카테고리로 깔끔하게 분류되는 것은 의심의 여지가 있습니다. 우리는 모델이 무엇인지 선택할 수 없으며 실제 데이터가 실험 데이터를 수집하는 기능에 따라 결정됩니다.

데이터 세트
데이터 세트는 500x500 이미지로 구성되며 각 카메라마다 하나의 이미지가 있으므로 총 데이터 포인트는 500x500x4 = 입니다. $10^6$

오류 모델
우리는 문제의 모든 오류를 현재 가우스로 간주합니다. 어떤 시점에서 나는 약간의 유연성을 위해 학생 t 오류 모델로 이동하려고 시도 할 수 있지만 가우시안만으로는 여전히 잘 작동하는 것처럼 보입니다.

가능성 예
이것은 플라즈마 물리학 실험이며, 대부분의 데이터는 렌즈 앞에 특정 필터가있는 플라즈마를 가리키는 카메라에서 비롯됩니다.

데이터를 재현하기 위해 두 단계가 있습니다. 먼저 메쉬의 플라즈마에서 나오는 빛을 모델링 한 다음 카메라 이미지로 다시 모델링해야합니다.

불행히도 플라즈마에서 나오는 빛을 모델링하는 것은 효과적으로 계수가 무엇인지에 달려 있습니다. 이 비율은 값 비싼 수치 모델에 의해 예측되므로 출력을 그리드에 저장 한 다음 보간하여 값을 찾아야합니다. 속도 함수 데이터는 한 번만 계산됩니다. 코드를 저장하면 스플라인을 저장 한 다음 스플라인을 작성하여 스플라인을 모든 함수 평가에 사용합니다.

과 가 속도 함수 (보간법으로 평가) 라고 가정 하면 메쉬 의 번째 정점 에서의 방출 는 여기서 는 메쉬에서 모델링하는 3 개의 필드입니다. 카메라 이미지로 방출되는 벡터를 얻는 것은 쉬운 일 입니다. 각 카메라 픽셀이 보는 메시 부분을 인코딩 하는 행렬 를 곱하면 됩니다. $R_1$ $R_2$ $i$ $\mathcal{E}_i$

{이자형}_{나는} = {아르 자형}_{1} ({엑스}_{나는}, {와이}_{나는}) + 지_{나는} {아르 자형}_{2} ({엑스}_{나는}, {와이}_{나는})

$\mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i)$

(x, y, z)

$(x,y,z)$

G

$\mathbf{G}$

오류가 가우시안이므로이 특정 카메라의 로그 가능성은

L = - \frac{1}{2} (G \vec{E} - \vec{d})^{⊤} Σ^{- 1} (G \vec{E} - \vec{d})

$\mathcal{L} = -\frac{1}{2} (\mathbf{G}\vec{\mathcal{E}} - \vec{d})^{\top}\mathbf{\Sigma}^{-1} (\mathbf{G}\vec{\mathcal{E}} - \vec{d})$

여기서 는 카메라 데이터입니다. 총 로그 우도는 위의 표현 중 4 가지를 합한 것입니다. 그러나 다른 카메라에서는 광 스펙트럼의 다른 부분을보고 있기 때문에 의 다른 버전의 레이트 함수를 있습니다. $\vec{d}$ $R_1, R_2$

이전 예
우리는 다양한 양에 대해 특정 상한과 하한을 효과적으로 설정하는 다양한 사전을 가지고 있지만, 문제에 대해 너무 강하게 작용하지는 않습니다. 우리는 Laplacian 타입의 스무딩을 효과적으로 필드에 적용하는 강력하게 작용하는 하나의 사전이 있습니다. 또한 가우시안 형식도 사용합니다.

log-prior = - \frac{1}{2} {\vec{x}}^{⊤} S \vec{x} - \frac{1}{2} {\vec{y}}^{⊤} S \vec{y} - \frac{1}{2} {\vec{z}}^{⊤} S \vec{z}

$\text{log-prior} = -\frac{1}{2}\vec{x}^{\top}\mathbf{S}\vec{x} -\frac{1}{2}\vec{y}^{\top}\mathbf{S}\vec{y} -\frac{1}{2}\vec{z}^{\top}\mathbf{S}\vec{z}$

— CBowman
소스

어떤 모델에 적합합니까? 선형 회귀? GP? 계층 카운트 모델? 컴퓨터 모델의 베이지안 교정? 해결하려는 문제에 대한 자세한 내용을 추가하십시오. VI의 장단점에 대한 답변을 드리겠습니다.

— DeltaIV

@DeltaIV 나는 더 많은 정보로 질문을 업데이트했습니다-당신이 찾고있는 것에 대해 정확하게 설명하지 않았을 수도 있습니다. 그렇다면 알려 주시면 다시 수정하겠습니다. 감사합니다.

— CBowman 2019

@DeltaIV 다시 감사합니다! 더 많은 정보가 추가되었습니다. 추가 할 수있는 것이 있으면 알려주세요.

— CBowman

@DeltaIV 데이터 이미지는 500x500이며 각 카메라마다 하나씩 있으므로 총 데이터 포인트는 500x500x4 =

10^{6}

$10^6$ . 속도 함수 데이터는 한 번만 계산됩니다. 코드를 저장하면 스플라인을 저장 한 다음 스플라인을 작성하여 스플라인을 모든 함수 평가에 사용합니다.

— CBowman

나는 참조를 가지고 있지 않지만 행렬 역을 계산하기위한 많은 낮은 순위 근사가 있습니다. 예를 들어 가장 큰 것을 찾으십시오

k

$k$ 고유 값, 남은 것으로 가정

2000 - k

$2000-k$ 동일하고 낮은 고유 값에 해당하는 고유 벡터에 대해 대략적인 근사값을 사용하십시오. 정확한 값으로 수렴하는 대략적 / 반복적 C 레 스키 분해도 있다고 확신합니다. 당신은 최대 시간이 무엇을 기다렸다 후 바로 반복을 종료

— probabilityislogic

답변:

우선, 통계 모델이 잘못되었다고 생각합니다. 나는 당신의 표기법을 통계 학자에게 더 친숙한 것으로 바 꾸었습니다.

d = y = (y_{1}, \dots, y_{N}), N = 10^{6}

$\mathbf{d}=\mathbf{y}=(y_1,\dots,y_N),\ N=10^6$

관찰 벡터 (데이터)이어야하며

\begin{aligned} x & = θ = (θ_{1}, \dots, θ_{p}) \\ y & = ϕ = (ϕ_{1}, \dots, ϕ_{p}) \\ z & = ρ = (ρ_{1}, \dots, ρ_{p}), p \approx 650 \end{aligned}

$\begin{align} \mathbf{x}&=\boldsymbol{\theta}=(\theta_1,\dots,\theta_p) \\ \mathbf{y}&=\boldsymbol{\phi}=(\phi_1,\dots,\phi_p) \\ \mathbf{z}&=\boldsymbol{\rho}=(\rho_1,\dots,\rho_p), \ p \approx 650 \\ \end{align}$

총 차원의 매개 변수 벡터 $d=3p \approx 2000$ . 그럼 내가 올바르게 이해하면 모델을 가정

y = G r_{1} (θ, ϕ) + ρ G r_{2} (θ, ϕ)) + ϵ, ϵ \sim N (0, I_{N})

$\mathbf{y} = \mathbf{G}\mathbf{r_1}(\boldsymbol{\theta}, \boldsymbol{\phi})+\boldsymbol{\rho}\mathbf{G}\mathbf{r_2}(\boldsymbol{\theta}, \boldsymbol{\phi}))+\boldsymbol{\epsilon},\ \boldsymbol{\epsilon}\sim\mathcal{N}(0,I_N)$

어디 $\mathbf{G}$ 입니다 $N\times d$ 스플라인 보간 행렬.

이것은 분명히 잘못입니다. 동일한 카메라의 이미지에서 다른 지점의 오류와 다른 카메라의 이미지에서 동일한 지점의 오류가 독립적 인 방법은 없습니다. 일반화 된 최소 제곱, 반 변량 추정, 크릭, 가우시안 프로세스 등과 같은 공간 통계 및 모델을 조사해야합니다.

귀하의 질문은 모델이 실제 데이터 생성 프로세스의 근사치인지 여부가 아니라 그러한 모델을 추정하는 방법이므로 몇 가지 옵션을 보여 드리겠습니다.

현대 자동차

랩톱 에서이 작업을 훈련하지 않는 한 2000 매개 변수는 큰 모델이 아닙니다. 데이터 세트가 더 큽니다 ( $10^6$ 그러나 GPU가있는 클라우드 인스턴스 또는 머신에 액세스 할 수있는 경우 Pyro 또는 Tensorflow Probability 와 같은 프레임 워크 는 이러한 문제를 간단히 해결합니다. 따라서 간단히 GPU 기반 Hamiltonian Monte Carlo를 사용할 수 있습니다.

장점 : "정확한"추론, 체인에서 무한한 수의 샘플 제한.

단점 : 추정 오류에 밀접한 관련이 없으며 여러 수렴 진단 메트릭이 존재하지만 이상적인 것은 아닙니다.

큰 표본 근사

표기법의 남용으로 $\theta$ 세 개의 벡터 매개 변수를 연결하여 얻은 벡터 그런 다음 베이지안 중심 제한 정리 (Bernstein-von Mises)를 사용하여 근사치 $p(\theta\vert \mathbf{y})$ 와 $\mathcal{N}(\hat{\theta_0}_n,I_n^{-1}(\theta_0))$ , 어디 $\theta_0$ "true"매개 변수 값입니다. $\hat{\theta_0}_n$ MLE 추정치 $\theta_0$ 과 $I_n^{-1}(\theta_0)$ 피셔 정보 매트릭스는 $\theta_0$ . 물론이야, $\theta_0$ 알려지지 않은, 우리는 사용합니다 $I_n^{-1}(\hat{\theta_0}_n)$ 대신에. Bernstein-von Mises 정리의 타당성은 여기 에서 찾을 수있는 몇 가지 가설에 달려 있습니다. $R_1,R_2$ 가우시안 이전의 지원이 전체 매개 변수 공간이기 때문에 매끄럽고 차별화 할 수있는 정리가 유효합니다. 또는, 더 나은, 그것은 것입니다 데이터가 당신이 가정으로 실제로 IID했다,하지만 난 그들이 믿지 않는다면 내가 처음에 설명 된대로, 유효.

장점 : 특히 $p<<N$ 케이스. 가능성이 매끄럽고 미분 가능하고 사전이 0이 아닌 경우 iid 설정에서 정답에 수렴되도록 보장 $\theta_0$ .

단점 : 앞서 언급했듯이 가장 큰 단점 은 Fisher 정보 매트릭스를 뒤집을 필요성입니다. 또한 MCMC 샘플러를 사용하여 샘플을 추출하는 것보다 경험적으로 근사치의 정확도를 판단하는 방법을 모르겠습니다. $p(\theta\vert \mathbf{y})$ . 물론, 이것은 우선 B-vM을 사용하는 유틸리티를 무너 뜨릴 것입니다.

변형 추론

이 경우 정확한 것을 찾는 것이 아니라 $p(\theta\vert \mathbf{y})$ (이것은 $d-$ i 차원 적분), 우리는 대략적인 것을 선택합니다 $p$ 와 $q_{\phi}(\theta)$ , 어디 $q$ 파라 메트릭 패밀리에 속합니다 $\mathcal{Q}_{\phi}$ 매개 변수 벡터로 색인 생성 $\phi$ . 찾는다 $\phi^*$ 불일치 측정 $q$ 과 $p$ 최소화됩니다. 이 측정 값을 KL 분기로 선택하면 Variational Inference 방법을 얻습니다.

ϕ^{*} = \underset{ϕ \in Φ}{a r g m i n} D_{K L} (q_{ϕ} (θ) | | p (θ | y))

$\DeclareMathOperator*{\argmin}{arg\,min} \phi^*=\argmin_{\phi\in\Phi}D_{KL}(q_{\phi}(\theta)||p(\theta\vert\mathbf{y}))$

요구 사항 $q_{\phi}(\theta)$ :

그것은 다음과 관련하여 차별화되어야합니다. $\phi$ 따라서 확률 적 그라디언트 디센트 (Stochastic Gradient Descent)와 같은 대규모 최적화 방법을 적용하여 최소화 문제를 해결할 수 있습니다.
정확하게 근사 할 수있을 정도로 유연해야합니다. $p(\theta\vert\mathbf{y})$ 일부 가치 $\phi$ 또한 샘플링하기에 충분히 간단합니다. 이는 KL 분기 (최적화 목표)를 추정하려면 예상 WRT를 추정해야하기 때문입니다. $q$ .

당신은 선택할 수 있습니다 $q_{\phi}(\theta)$ 완전히 분해 될 수있는 것, 즉 $d$ 일 변량 확률 분포 :

q_{ϕ} (θ) = \prod_{i = 1}^{d} q_{ϕ_{i}} (θ_{i})

$q_{\phi}(\theta)=\prod_{i=1}^d q_{\phi_i}(\theta_i)$

이것은 소위 평균 필드 Variational Bayes 방법입니다. 각 요인에 대한 최적의 솔루션 임을 증명할 수 있습니다 (예 : 이 책의 10 장 참조 ). $q_{\phi_j}(\theta_j)$ 이다

\log q_{j}^{*} (θ_{j}) = E_{i \neq j} [\log p (y, θ)] + const.

$\log{q_j^*(\theta_j)} = \mathbb{E}_{i\neq j}[\log{p(\mathbf{y},\theta)}] + \text{const.}$

어디 $p(\mathbf{y},\theta)$ 모수와 데이터의 합동 분포 (귀하의 경우 가우시안 우도의 곱과 모수에 대한 가우시안 이전 곱임)이며 다른 변이 일 변량 분포에 대한 기대치 $q_1^*(\theta_1),\dots,q_{j-1}^*(\theta_{j-1}),q_{j+1}^*(\theta_{j+1}),\dots,q_{d}^*(\theta_{d})$ . 물론, 요인 중 하나에 대한 솔루션은 다른 모든 요인에 따라 다르므로 모든 분포를 초기화하는 반복 절차를 적용해야합니다. $q_{i}(\theta_{i})$ 처음 추측 한 다음 위의 방정식으로 한 번에 하나씩 반복적으로 업데이트합니다. 참고 그 대신에 상기와 기대 컴퓨팅 $(d-1)-$ 선행과 가능성이 공액이 아닌 경우에는 엄청나게 큰 차원 적분으로 Monte Carlo 추정을 사용하여 기대치를 근사 할 수 있습니다.

Mean-field Variational Bayes 알고리즘은 여러분이 사용할 수있는 유일한 VI 알고리즘이 아닙니다 : Kingma & Welling, 2014에 제시된 Variational Autoencoder , "Auto-encoding Variational Bayes" 는 완전히 인수 화 된 형태를 가정하는 것이 아니라 흥미로운 대안입니다. ...에 대한 $q$ 에 대한 닫힌 양식 표현식을 도출합니다. $q_i$ , $q$ 다변량 가우스 인 것으로 가정되지만 각 $N$ 데이터 점수. 추론 비용을 상각하기 위해 신경망을 사용하여 입력 공간을 변동 매개 변수 공간에 매핑합니다. 알고리즘에 대한 자세한 설명은 논문을 참조하십시오. VAE 구현은 모든 주요 딥 러닝 프레임 워크에서 다시 사용할 수 있습니다.

— 델타 IV
소스

VB 독립 모델은 정확도 측정을 위한 끔찍한 접근 방법이 될 수 있습니다 . 일반적으로 조정하지 않고 플러그인 유형 근사값에 해당합니다. 간단한 예제는 "자유도"조정을 사용하지 않습니다

s^{2}

$s^2$ t 분포 대신 정규을 사용합니다. 특히 하이퍼 파라미터에 대한 문제

— 확률 론적

@DeltaIV 통계 모델은 일반적으로 실제로 매우 우수하며 다른 카메라 간의 오류는 매우 독립적이며 동일한 카메라의 다른 픽셀은 문자 그대로 인접하지 않는 한 기본적으로 독립적입니다. 우리는 가우시안 프로세스 가능성을 사용하여 인접한 픽셀의 공간적 상관 관계를 인코딩 할 수 있지만 가능성을 평가할 때마다 공분산 행렬을 직접 반전하거나 희소 선형 시스템을 풀어야합니다. 비싸지 만 (질문은 아닙니다).

— CBowman

"bayesX"소프트웨어와 "inla"소프트웨어 중 일부를 확인하고 싶을 수도 있습니다. 이 두 가지 모두 시도해 볼 수있는 아이디어가있을 수 있습니다. 구글 그것

둘 다 정밀 행렬의 매개 변수화 (즉, 조건부 독립성, 마르코프 유형 모델)에서 희소성을 활용하는 데 크게 의존하며이를 위해 설계된 반전 알고리즘이 있습니다. 대부분의 예는 다단계 또는 자동 회귀 가우시안 모델을 기반으로합니다. 게시 한 예와 상당히 유사해야합니다.

— 확률 론적
소스