«backpropagation» 태그된 질문

"오류의 ​​역 전파"의 약자 인 역전 파는 경사 하강과 같은 최적화 방법과 함께 사용되는 인공 신경망을 훈련시키는 일반적인 방법입니다.

2
신경망에서 가중치를 초기화 할 때 잘린 정규 분포의 이점은 무엇입니까?
피드 포워드 신경망에서 연결 가중치를 초기화 할 때 학습 알고리즘이 중단되지 않는 대칭을 피하기 위해 무작위로 가중치를 초기화하는 것이 중요합니다. 다양한 장소에서 본 권장 사항 (예 : TensorFlow의 MNIST 자습서 )은 표준 편차 1 을 사용하여 잘린 정규 분포를 사용하는 것입니다 , 여기서N은 주어진 뉴런 레이어에 대한 입력 수입니다.1엔−−√1엔\dfrac{1}{\sqrt{N}}엔엔N 표준 …

2
LSTM 장치가있는 RNN도 왜 "그라데이션 폭발"로 고통받을 수 있습니까?
RNN (특히 LSTM 단위)의 작동 방식에 대한 기본 지식이 있습니다. LSTM 장치의 구조, 즉 셀과 몇 개의 게이트로 구성된 값의 흐름을 조절하는 그림 아이디어가 있습니다. 그러나 LSTM이 기존 RNN 인 시간 전파를 통해 훈련하는 동안 발생하는 "배니싱 및 폭발 그라디언트"문제를 해결하는 방법을 완전히 이해하지 못했습니다. 나는 수학을 완전히 이해하기 위해 …

1
배치 정규화를 통한 역 전파의 매트릭스 형태
배치 정규화 는 심층 신경망에서 상당한 성능 향상으로 인정되었습니다. 인터넷에 많은 자료가 활성화별로이를 구현하는 방법을 보여줍니다. 나는 이미 행렬 대수를 사용하여 backprop를 구현했으며, 고밀도 언어 ( Rcpp고밀도 행렬 곱셈 에 (그리고 결국 GPU)에 의존하는 동안 )에서 모든 것을 추출하고 for-loops를 사용하면 코드가 느려질 것입니다 대단한 고통에 더해 배치 정규화 함수는 …

2
시간에 따른 잘린 역 전파를 사용할 때 초기 패턴 캡처 (RNN / LSTM)
RNN / LSTM을 사용하여 감정 분석을 수행한다고하는데, 이는 다 대일 접근 방식입니다 ( 이 블로그 참조 ). 네트워크는 절단 된 역 전파 전파 시간 (BPTT)을 통해 훈련되며, 여기서 네트워크는 평소와 같이 30 개의 마지막 단계 만 수행됩니다. 필자의 경우 분류하려는 각 텍스트 섹션이 풀리는 30 단계 (~ 100 단어)보다 훨씬 …

2
미니 배치 그라디언트 디센트는 배치에서 각 예제의 가중치를 어떻게 업데이트합니까?
일괄 처리로 10 개의 예를 처리하는 경우 각 예의 손실을 합산 할 수 있지만 각 예의 가중치 업데이트와 관련하여 역전 파는 어떻게 작동합니까? 예를 들면 다음과 같습니다. 예 1-> 손실 = 2 예 2-> 손실 = -2 결과적으로 평균 손실은 0 (E = 0)이되므로 각 가중치와 수렴을 어떻게 업데이트합니까? 우리가 …

2
역 전파를 통해 SVM을 훈련시키는 방법?
역 전파를 사용하여 SVM을 훈련시킬 수 있는지 (예를 들어 선형적인 것을 만들 수 있는지) 궁금합니다. 현재 분류기의 출력 을 f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) 따라서 "역방향 패스"(전파 된 오류)를 계산하려고하면 보낸 유도체 는 ∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0 \begin{align} \frac{\partial E}{\partial \mathbf{x}} &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial f(\mathbf{x};\theta,b)}{\mathbf{x}} \\ &= \frac{\partial …

1
컨볼 루션 신경망 교육
현재 컨볼 루션 신경망을 사용하여 얼굴을 인식하는 얼굴 인식 소프트웨어를 개발 중입니다. 나의 독서에 기초하여, 나는 컨볼 루션 신경망이 가중치를 공유하여 훈련하는 동안 시간을 ​​절약 할 수 있다는 것을 모았다. 그러나 어떻게 역 전파 (backpropagation)를 조정하여 컨볼 루션 신경망에서 사용될 수 있습니까? 역 전파에서, 이와 유사한 공식을 사용하여 가중치를 훈련시킵니다. …

2
사전 훈련이란 무엇이며 신경망을 어떻게 사전 훈련합니까?
사전 교육은 기존 교육의 일부 문제를 피하기 위해 사용됩니다. 자동 인코더와 함께 역 전파를 사용하면 역 전파가 느리고 시간이 오래 걸리고 현지 최적화에 얽매여 특정 기능을 배울 수 없기 때문에 시간 문제가 발생한다는 것을 알고 있습니다. 내가 이해하지 못하는 것은 네트워크를 사전 훈련시키는 방법과 사전 훈련을 위해 특별히하는 일입니다. 예를 …

1
스킵 그램 word2vec에 대한 그라디언트
나는 스탠포드 NLP 딥 러닝 수업의 과제 할당 문제 http://cs224d.stanford.edu/assignment1/assignment1_soln의 문제를 겪고 있습니다 . 중심 단어의 벡터에 대한 미분을 찾고있는 3a의 답을 이해하려고합니다. 스킵 그램에 대한 중심 단어 c 에 해당 하는 예측 단어 벡터 가 주어 지고 단어 예측은 word2vec 모델에서 찾은 softmax 함수로 이루어집니다.vcvcv_{c} y^o=p(o|c)=exp(uTovc)∑Ww=1exp(uTwvc)y^o=p(o|c)=exp(uoTvc)∑w=1Wexp(uwTvc)\hat{y}^{o} = p(o | …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.