베이지안 딥 러닝이란 무엇입니까?


13

베이지안 딥 러닝이란 무엇이며 기존 베이지안 통계 및 전통적인 딥 러닝과 어떤 관련이 있습니까?

주요 개념과 수학은 무엇입니까? 파라 메트릭이 아닌 베이지안 통계라고 말할 수 있습니까? 주요 작업과 현재 주요 개발 및 응용 프로그램은 무엇입니까?

추신 : Bayesian Deep Learning은 많은 주목을 받고 있습니다. NIPS 워크숍을 참조하십시오.

답변:


10

NIPS 워크숍 링크에서 벗어난 Yee Whye Teh는 Bayesian Deep Learning의 NIPS에서 기조 연설을했습니다 (비디오 : https://www.youtube.com/watch?v=LVBvJsTr3rg , 슬라이드 : http : //csml.stats). ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). 대화의 어느 시점에서, Teh는 베이지안 딥 러닝을 베이지안 프레임 워크를 딥 러닝의 아이디어 (신경망의 가중치보다 뒤에서 배우는 것과 같은)에 적용하는 것으로 요약하고 딥 베이지안 학습을 딥 러닝의 아이디어를 베이지안 프레임 워크 (깊은 가우시안 프로세스 또는 깊은 지수 패밀리와 같은). 변형 자동 엔코더와 같이 두 개념 사이의 경계선을 가로 지르는 아이디어가 있습니다. 대부분의 사람들이 베이지안 딥 러닝을 말할 때, 일반적으로 두 가지 중 하나를 의미하며, 이는 전년도 워크숍과 함께 연결된 워크숍에서 접수 된 논문에 반영됩니다. 이 아이디어는 90 년대 신경망에 대한 베이지안 학습에 관한 Neal의 연구로 되돌아 가면서 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), 그 이후 몇 년 동안 작업이 진행되어 왔으며, 가장 중요한 최신 논문 중 하나는 원본 변형 자동 인코더 종이 ( https://arxiv.org/pdf/1312.6114.pdf ).


10

먼저 전통적인 베이지안 신경망의 기본 확률 모델이 무엇인지 잘 이해하는 것이 좋습니다. 다음에서 일부 용어는 굵게 표시 됩니다. 보다 자세한 정보를 찾으려면 해당 용어를 인터넷 검색해보십시오. 이것은 기본 개요 일뿐입니다. 도움이 되길 바랍니다.

피드 포워드 신경망 에서 회귀 의 경우를 고려하고 몇 가지 표기법을 설정 합시다 .

하자 상기 예측기의 값을 나타내는 입력 층 . 의 값 단위내부 층 에 의해 표시 될 것이다 에 대한 입니다. 마지막으로 출력 레이어 있습니다.(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN())=1,,L1 (y1,,yk)=:(z1(L),,zNL(L))

가중치바이어스 유닛의 계층을 로 표시한다 및 각각에 대한 , 및 입니다.iwij()bi()=1,,Li=1,Nj=1,,N1

하자 할 것을 활성화 기능 유닛 층에서 들면 및 입니다.gi():RN1Ri=1,,Li=1,N

일반적으로 사용되는 활성화 기능은 로지스틱 , ReLU (일명 양수 ) 및 tanh 입니다.

이제 에 대해 레이어 전이 함수 정의하십시오 여기서 에 대한 .=1,,L

G():RN1RN:(z1(1),,zN1(1))(z1(),,zN()),
zi()=gi()(j=1N1wij()zj(1)+bi()),
i=1,,N

로 모든 계층의 모든 단위에 대한 가중치 및 바이어스 세트를 나타내는 것은 신경망은 함수 군 는 층 천이 함수의 구성에 의해 얻어진다 : θ

θ={wij(),bi():=1,,L;i=1,N;j=1,,N1},
Gθ:RpRk
Gθ=G(L)G(L1)G(1).

위의 설명과 관련된 확률은 없습니다. 최초의 신경망 사업의 목적은 기능에 맞는 것 입니다.

딥 러닝 의 "딥"은 고려중인 신경망에 많은 내부 레이어가 있음을 나타냅니다.

주어진 훈련 세트 우리는 목적 함수를 최소화하기 위해 시도 위에 . 예측의 몇몇 벡터 에서 테스트 세트 , 예측 된 응답은 단순히 되는, 용액은 최소화 문제로 발견되었습니다. 이 최소화의 황금 표준 은 최신 GPU 에서 사용 가능한 병렬화 기능을 사용하여 TensorFlow 라이브러리에 의해 구현 된 역 전파입니다.{(xi,yi)Rp×Rk:i=1,,n}

i=1nyiGθ(xi)2,
θxGθ^(x)θ^의 (프로젝트의 경우 Keras 인터페이스를 확인하십시오 ). 또한 이러한 작업을 캡슐화하는 하드웨어를 사용할 수 있습니다 ( TPU ). 신경망은 일반적으로 과도하게 매개 변수화되기 때문에 과적 합을 피하기 위해 어떤 형태의 정규화가 레시피에 추가됩니다 (예 : 목표 함수에 페널티와 같은 능선합치 거나 훈련 중 드롭 아웃 사용) . Geoffrey Hinton (일명 딥 러닝 대부)과 공동 작업자들은 이러한 많은 것들을 발명했습니다. 딥 러닝의 성공 사례는 어디에나 있습니다.

확률은 80 년대 후반과 90 년대 초 가우스 우도 와 간단한 (아마도 단순한) 가우시안 전에 상정 선험적 네트워크 내의 모든 가중치 및 바이어스의 독립성 :

Lx,y(θ,σ2)σnexp(12σ2i=1nyiGθ(xi)2),
π(θ,σ2)exp(12σ02=1Li=1N((bi())2+j=1N1(wij())2))×π(σ2).

따라서 가중치와 바이어스에 대한 한계 선행은 평균이 0이고 공통 분산이 정규 분포입니다 . 이 최초의 조인트 모델은 추론을 더욱 어렵게 만드는 트레이드 오프와 함께 훨씬 더 복잡하게 만들 수 있습니다.σ02

베이지안 딥 러닝은 해당 사후 분포에서 샘플링하는 어려운 작업에 직면 해 있습니다. 이것이 달성 된 후, 사후 예측 분포 로 자연스럽게 예측이 이루어 지고, 이들 예측과 관련된 불확실성이 완전히 정량화된다. 베이지안 딥 러닝의 성배는 효율적이고 확장 가능한 솔루션의 구축입니다. 이 퀘스트에는 Metropolis-HastingsGibbs 샘플링 , Hamiltonian Monte Carlo 및보다 최근에는 Variational Inference 와 같은 많은 계산 방법이 사용되었습니다 .

성공 사례에 대해서는 NIPS 회의 비디오를 확인하십시오. http://bayesiandeeplearning.org/

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.