RNN은 각 레이어가 새로운 입력을받을 수 있지만 동일한 매개 변수를 갖는 DNN (Deep Neural Network)입니다. BPT는 그 자체가 그라디언트 디센트 (Gradient Descent)를위한 멋진 단어 인 이러한 네트워크에서 역 전파 (Back Propagation)를위한 멋진 단어입니다.
말하는 RNN 출력하는 Y t 각 단계에서와
E R R O R t = ( Y t - Y t ) (2)와이^티
e r r o r티= ( y티− y^티)2
가중치를 배우기 위해서는 함수 의 변화가 손실 함수에 얼마나 영향을 미치는가? 다음과 같은 방향으로 매개 변수를 이동하십시오.
∇ e r r o r티= − 2 ( y티− y^티) ∇ y^티
즉, 각 계층에서 예측이 얼마나 좋은지에 대한 피드백을받는 DNN이 있습니다. 파라미터의 변경은 DNN의 모든 계층 (시간 간격)을 변경하고 모든 계층은 다음 출력에 기여하므로이 점을 고려해야합니다.
간단한 하나의 뉴런 1 레이어 네트워크를 사용하여 이것을 반 명시 적으로보십시오.
와이^t + 1=∂∂ㅏ와이^t + 1=∂∂비와이^t + 1=∂∂씨와이^t + 1=⟺∇ y^t + 1=에프( a + b x티+ C의 Y^티)에프'( a + b x티+ C의 Y^티) ⋅ c ⋅ ∂∂ㅏ와이^티에프'( a + b x티+ C의 Y^티)⋅(xt+c⋅∂∂by^t)f′(a+bxt+cy^t)⋅(y^t+c⋅∂∂cy^t)f′(a+bxt+cy^t)⋅⎛⎝⎜⎡⎣⎢0xty^t⎤⎦⎥+c∇y^t⎞⎠⎟
함께 학습율 한 트레이닝 단계는 다음이다 :
[ ~ ~ B ~ C ] ← [ B C ] + δ ( Y t - Y t ) ∇ Y tδ
⎡⎣⎢a~b~c~⎤⎦⎥←⎡⎣⎢abc⎤⎦⎥+δ(yt−y^t)∇y^t
우리가 볼 것은 계산하기 위해 있다는 것입니다 당신이 필요 에서 계산, 즉 롤에 ∇ y를 t . 당신이 제안하는 것은 단순히 빨간색 부분을 무시하고 t에 대한 빨간색 부분을 계산 하지만 더 이상 재귀하지 않는 것입니다. 나는 당신의 손실이∇y^t+1∇y^tt
error=∑t(yt−y^t)2
어쩌면 각 단계는 집계에 충분한 원유 방향에 기여할 것입니까? 이것은 결과를 설명 할 수 있지만 방법 / 손실 기능에 대해 더 많이 듣고 싶습니다! 또한 두 개의 시간 대별 ANN과의 비교에 관심이 있습니다.
edit4 : 주석을 읽은 후에는 아키텍처가 RNN이 아닌 것 같습니다.
ht
모델 : 각 단계에서 상태 비 저장-숨김 상태 재 작성
edit2 : DNN에 더 많은 참조를 추가했습니다.