베이지안 딥 러닝이란 무엇입니까?

베이지안 딥 러닝이란 무엇이며 기존 베이지안 통계 및 전통적인 딥 러닝과 어떤 관련이 있습니까?

주요 개념과 수학은 무엇입니까? 파라 메트릭이 아닌 베이지안 통계라고 말할 수 있습니까? 주요 작업과 현재 주요 개발 및 응용 프로그램은 무엇입니까?

추신 : Bayesian Deep Learning은 많은 주목을 받고 있습니다. NIPS 워크숍을 참조하십시오.

bayesian deep-learning

— 스탯
소스

NIPS 워크숍 링크에서 벗어난 Yee Whye Teh는 Bayesian Deep Learning의 NIPS에서 기조 연설을했습니다 (비디오 : https://www.youtube.com/watch?v=LVBvJsTr3rg , 슬라이드 : http : //csml.stats). ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). 대화의 어느 시점에서, Teh는 베이지안 딥 러닝을 베이지안 프레임 워크를 딥 러닝의 아이디어 (신경망의 가중치보다 뒤에서 배우는 것과 같은)에 적용하는 것으로 요약하고 딥 베이지안 학습을 딥 러닝의 아이디어를 베이지안 프레임 워크 (깊은 가우시안 프로세스 또는 깊은 지수 패밀리와 같은). 변형 자동 엔코더와 같이 두 개념 사이의 경계선을 가로 지르는 아이디어가 있습니다. 대부분의 사람들이 베이지안 딥 러닝을 말할 때, 일반적으로 두 가지 중 하나를 의미하며, 이는 전년도 워크숍과 함께 연결된 워크숍에서 접수 된 논문에 반영됩니다. 이 아이디어는 90 년대 신경망에 대한 베이지안 학습에 관한 Neal의 연구로 되돌아 가면서 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), 그 이후 몇 년 동안 작업이 진행되어 왔으며, 가장 중요한 최신 논문 중 하나는 원본 변형 자동 인코더 종이 ( https://arxiv.org/pdf/1312.6114.pdf ).

— 알 레싱
소스

먼저 전통적인 베이지안 신경망의 기본 확률 모델이 무엇인지 잘 이해하는 것이 좋습니다. 다음에서 일부 용어는 굵게 표시 됩니다. 보다 자세한 정보를 찾으려면 해당 용어를 인터넷 검색해보십시오. 이것은 기본 개요 일뿐입니다. 도움이 되길 바랍니다.

피드 포워드 신경망 에서 회귀 의 경우를 고려하고 몇 가지 표기법을 설정 합시다 .

하자 상기 예측기의 값을 나타내는 입력 층 . 의 값 단위 의 내부 층 에 의해 표시 될 것이다 에 대한 입니다. 마지막으로 출력 레이어 있습니다. $(x_1,\dots,x_p) =: \left(z^{(0)}_1,\dots,z^{(0)}_{N_0}\right)$ $\left(z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell}\right)$ $\ell=1,\dots,L-1$ $(y_1,\dots,y_k) =:\left(z^{(L)}_1,\dots,z^{(L)}_{N_L}\right)$

가중치 및 바이어스 유닛의 계층을 로 표시한다 및 각각에 대한 , 및 입니다. $i$ $\ell$ $w^{(\ell)}_{ij}$ $b^{(\ell)}_i$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$ $j=1,\dots,N_{\ell-1}$

하자 할 것을 활성화 기능 유닛 층에서 들면 및 입니다. $g^{(\ell)}_i : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}$ $i$ $\ell$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$

일반적으로 사용되는 활성화 기능은 로지스틱 , ReLU (일명 양수 ) 및 tanh 입니다.

이제 에 대해 레이어 전이 함수 정의하십시오 여기서 에 대한 . $\ell=1,\dots,L$

G^{(ℓ)} : R^{N_{ℓ - 1}} \to R^{N_{ℓ}} : (z_{1}^{(ℓ - 1)}, \dots, z_{N_{ℓ - 1}}^{(ℓ - 1)}) \mapsto (z_{1}^{(ℓ)}, \dots, z_{N_{ℓ}}^{(ℓ)}),

$G^{(\ell)} : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}^{N_\ell} : \left(z^{(\ell-1)}_1,\dots,z^{(\ell-1)}_{N_{\ell-1}} \right) \mapsto \left( z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell} \right),$

z_{i}^{(ℓ)} = g_{i}^{(ℓ)} (\sum_{j = 1}^{N_{ℓ - 1}} w_{i j}^{(ℓ)} z_{j}^{(ℓ - 1)} + b_{i}^{(ℓ)}),

$z^{(\ell)}_i = g^{(\ell)}_i\!\left( \sum_{j=1}^{N_{\ell-1}} w^{(\ell)}_{ij} z^{(\ell-1)}_j + b^{(\ell)}_i\right),$

i = 1, \dots, N_{ℓ}

$i=1,\dots,N_{\ell}$

로 모든 계층의 모든 단위에 대한 가중치 및 바이어스 세트를 나타내는 것은 신경망은 함수 군 는 층 천이 함수의 구성에 의해 얻어진다 : $\theta$

θ = {w_{i j}^{(ℓ)}, b_{i}^{(ℓ)} : ℓ = 1, \dots, L; i = 1 \dots, N_{ℓ}; j = 1, \dots, N_{ℓ - 1}},

$\theta = \left\{ w^{(\ell)}_{ij},b^{(\ell)}_i : \ell=1,\dots,L \,;\, i=1\dots,N_\ell \,;\, j=1,\dots,N_{\ell-1} \right\},$

G_{θ} : R^{p} \to R^{k}

$G_\theta : \mathbb{R}^p\to\mathbb{R}^k$

G_{θ} = G^{(L)} \circ G^{(L - 1)} \circ \dots \circ G^{(1)} .

$G_\theta = G^{(L)} \circ G^{(L-1)} \circ \dots \circ G^{(1)}.$

위의 설명과 관련된 확률은 없습니다. 최초의 신경망 사업의 목적은 기능에 맞는 것 입니다.

딥 러닝 의 "딥"은 고려중인 신경망에 많은 내부 레이어가 있음을 나타냅니다.

주어진 훈련 세트 우리는 목적 함수를 최소화하기 위해 시도 위에 . 예측의 몇몇 벡터 에서 테스트 세트 , 예측 된 응답은 단순히 되는, 용액은 최소화 문제로 발견되었습니다. 이 최소화의 황금 표준 은 최신 GPU 에서 사용 가능한 병렬화 기능을 사용하여 TensorFlow 라이브러리에 의해 구현 된 역 전파입니다. $\{ (\mathbf{x}_i,\mathbf{y}_i) \in \mathbb{R}^p\times\mathbb{R}^k : i = 1,\dots,n \}$

\sum_{i = 1}^{n} ‖ y_{i} - G_{θ} (x_{i}) ‖^{2},

$\sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2,$

θ

$\theta$

x^{*}

$\mathbf{x}^*$

G_{\hat{θ}} (x^{*})

$G_\hat{\theta}(\mathbf{x}^*)$

\hat{θ}

$\hat{\theta}$ 의 (프로젝트의 경우 Keras 인터페이스를 확인하십시오 ). 또한 이러한 작업을 캡슐화하는 하드웨어를 사용할 수 있습니다 ( TPU ). 신경망은 일반적으로 과도하게 매개 변수화되기 때문에 과적 합을 피하기 위해 어떤 형태의 정규화가 레시피에 추가됩니다 (예 : 목표 함수에 페널티와 같은 능선 을 합치 거나 훈련 중 드롭 아웃 사용) . Geoffrey Hinton (일명 딥 러닝 대부)과 공동 작업자들은 이러한 많은 것들을 발명했습니다. 딥 러닝의 성공 사례는 어디에나 있습니다.

확률은 80 년대 후반과 90 년대 초 가우스 우도 와 간단한 (아마도 단순한) 가우시안 전에 상정 선험적 네트워크 내의 모든 가중치 및 바이어스의 독립성 :

L_{x, y} (θ, σ^{2}) \propto σ^{- n} \exp (- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} ‖ y_{i} - G_{θ} (x_{i}) ‖^{2}),

$L_{\mathbf{x},\mathbf{y}}(\theta,\sigma^2)\propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2\right),$

π (θ, σ^{2}) \propto \exp (- \frac{1}{2 σ_{0}^{2}} \sum_{ℓ = 1}^{L} \sum_{i = 1}^{N_{ℓ}} ({(b_{i}^{(ℓ)})}^{2} + \sum_{j = 1}^{N_{ℓ - 1}} {(w_{i j}^{(ℓ)})}^{2})) \times π (σ^{2}) .

$\pi(\theta,\sigma^2) \propto \exp\left( -\frac{1}{2\sigma_0^2} \sum_{\ell=1}^L \sum_{i=1}^{N_\ell} \left( \left(b^{(\ell)}_i\right)^2 + \sum_{j=1}^{N_{\ell-1}} \left(w^{(\ell)}_{ij}\right)^2 \right) \right) \times \pi(\sigma^2).$

따라서 가중치와 바이어스에 대한 한계 선행은 평균이 0이고 공통 분산이 정규 분포입니다 . 이 최초의 조인트 모델은 추론을 더욱 어렵게 만드는 트레이드 오프와 함께 훨씬 더 복잡하게 만들 수 있습니다. $\sigma_0^2$

베이지안 딥 러닝은 해당 사후 분포에서 샘플링하는 어려운 작업에 직면 해 있습니다. 이것이 달성 된 후, 사후 예측 분포 로 자연스럽게 예측이 이루어 지고, 이들 예측과 관련된 불확실성이 완전히 정량화된다. 베이지안 딥 러닝의 성배는 효율적이고 확장 가능한 솔루션의 구축입니다. 이 퀘스트에는 Metropolis-Hastings 및 Gibbs 샘플링 , Hamiltonian Monte Carlo 및보다 최근에는 Variational Inference 와 같은 많은 계산 방법이 사용되었습니다 .

성공 사례에 대해서는 NIPS 회의 비디오를 확인하십시오. http://bayesiandeeplearning.org/

— 선
소스