베이지안 딥 러닝이란 무엇이며 기존 베이지안 통계 및 전통적인 딥 러닝과 어떤 관련이 있습니까?
주요 개념과 수학은 무엇입니까? 파라 메트릭이 아닌 베이지안 통계라고 말할 수 있습니까? 주요 작업과 현재 주요 개발 및 응용 프로그램은 무엇입니까?
추신 : Bayesian Deep Learning은 많은 주목을 받고 있습니다. NIPS 워크숍을 참조하십시오.
베이지안 딥 러닝이란 무엇이며 기존 베이지안 통계 및 전통적인 딥 러닝과 어떤 관련이 있습니까?
주요 개념과 수학은 무엇입니까? 파라 메트릭이 아닌 베이지안 통계라고 말할 수 있습니까? 주요 작업과 현재 주요 개발 및 응용 프로그램은 무엇입니까?
추신 : Bayesian Deep Learning은 많은 주목을 받고 있습니다. NIPS 워크숍을 참조하십시오.
답변:
NIPS 워크숍 링크에서 벗어난 Yee Whye Teh는 Bayesian Deep Learning의 NIPS에서 기조 연설을했습니다 (비디오 : https://www.youtube.com/watch?v=LVBvJsTr3rg , 슬라이드 : http : //csml.stats). ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). 대화의 어느 시점에서, Teh는 베이지안 딥 러닝을 베이지안 프레임 워크를 딥 러닝의 아이디어 (신경망의 가중치보다 뒤에서 배우는 것과 같은)에 적용하는 것으로 요약하고 딥 베이지안 학습을 딥 러닝의 아이디어를 베이지안 프레임 워크 (깊은 가우시안 프로세스 또는 깊은 지수 패밀리와 같은). 변형 자동 엔코더와 같이 두 개념 사이의 경계선을 가로 지르는 아이디어가 있습니다. 대부분의 사람들이 베이지안 딥 러닝을 말할 때, 일반적으로 두 가지 중 하나를 의미하며, 이는 전년도 워크숍과 함께 연결된 워크숍에서 접수 된 논문에 반영됩니다. 이 아이디어는 90 년대 신경망에 대한 베이지안 학습에 관한 Neal의 연구로 되돌아 가면서 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), 그 이후 몇 년 동안 작업이 진행되어 왔으며, 가장 중요한 최신 논문 중 하나는 원본 변형 자동 인코더 종이 ( https://arxiv.org/pdf/1312.6114.pdf ).
먼저 전통적인 베이지안 신경망의 기본 확률 모델이 무엇인지 잘 이해하는 것이 좋습니다. 다음에서 일부 용어는 굵게 표시 됩니다. 보다 자세한 정보를 찾으려면 해당 용어를 인터넷 검색해보십시오. 이것은 기본 개요 일뿐입니다. 도움이 되길 바랍니다.
피드 포워드 신경망 에서 회귀 의 경우를 고려하고 몇 가지 표기법을 설정 합시다 .
하자 상기 예측기의 값을 나타내는 입력 층 . 의 값 단위 의 내부 층 에 의해 표시 될 것이다 에 대한 입니다. 마지막으로 출력 레이어 있습니다.
가중치 및 바이어스 유닛의 계층을 로 표시한다 및 각각에 대한 , 및 입니다.
하자 할 것을 활성화 기능 유닛 층에서 들면 및 입니다.
일반적으로 사용되는 활성화 기능은 로지스틱 , ReLU (일명 양수 ) 및 tanh 입니다.
이제 에 대해 레이어 전이 함수 정의하십시오 여기서 에 대한 .
로 모든 계층의 모든 단위에 대한 가중치 및 바이어스 세트를 나타내는 것은 신경망은 함수 군 는 층 천이 함수의 구성에 의해 얻어진다 :
위의 설명과 관련된 확률은 없습니다. 최초의 신경망 사업의 목적은 기능에 맞는 것 입니다.
딥 러닝 의 "딥"은 고려중인 신경망에 많은 내부 레이어가 있음을 나타냅니다.
주어진 훈련 세트 우리는 목적 함수를 최소화하기 위해 시도 위에 . 예측의 몇몇 벡터 에서 테스트 세트 , 예측 된 응답은 단순히 되는, 용액은 최소화 문제로 발견되었습니다. 이 최소화의 황금 표준 은 최신 GPU 에서 사용 가능한 병렬화 기능을 사용하여 TensorFlow 라이브러리에 의해 구현 된 역 전파입니다.
확률은 80 년대 후반과 90 년대 초 가우스 우도 와 간단한 (아마도 단순한) 가우시안 전에 상정 선험적 네트워크 내의 모든 가중치 및 바이어스의 독립성 :
따라서 가중치와 바이어스에 대한 한계 선행은 평균이 0이고 공통 분산이 정규 분포입니다 . 이 최초의 조인트 모델은 추론을 더욱 어렵게 만드는 트레이드 오프와 함께 훨씬 더 복잡하게 만들 수 있습니다.
베이지안 딥 러닝은 해당 사후 분포에서 샘플링하는 어려운 작업에 직면 해 있습니다. 이것이 달성 된 후, 사후 예측 분포 로 자연스럽게 예측이 이루어 지고, 이들 예측과 관련된 불확실성이 완전히 정량화된다. 베이지안 딥 러닝의 성배는 효율적이고 확장 가능한 솔루션의 구축입니다. 이 퀘스트에는 Metropolis-Hastings 및 Gibbs 샘플링 , Hamiltonian Monte Carlo 및보다 최근에는 Variational Inference 와 같은 많은 계산 방법이 사용되었습니다 .
성공 사례에 대해서는 NIPS 회의 비디오를 확인하십시오. http://bayesiandeeplearning.org/