답변:
역 전파 알고리즘은 신경망 모델에 적합하기위한 경사 하강 알고리즘 이다 . (@Dikran이 언급 한) 방법을 설명하겠습니다.
공식적으로 : 아래 방정식 [1] 내에서이 포스트의 끝에서 그라디언트 계산 (그라디언트 디센트의 정의)을 사용하면 그라디언트 디센트를 사용하는 경우의 역 전파 알고리즘이 제공됩니다.
신경망 모델 공식적으로 간단한 단일 레이어 모델로 아이디어를 수정합니다.
아이디어를 수정하기 위해 2 차 손실 함수 가 사용됩니다. 따라서 의 입력 벡터 는 경험적 최소화를 통해 의 실제 출력 (벡터 일 수 있음 에 수 있습니다. 손실 : 및 의 선택과 관련하여 .
그라디언트 강하 grandient 하강 최소화알고리즘하다 대하여 반복 : 잘 선택된 단계 크기(역 전파 프레임 워크에서 학습 속도라고도 함). 의 기울기를 계산해야합니다. 고려되는 경우.
그라디언트 에 의해 나타내고 우릴하자 (신경망 모델 간주 간단한 경우) 의 기울기 의 함수로서 및 의 함수로 의 기울기 . 표준 계산 (함수 구성 도출 규칙 사용) 및 표기법 은 모든 대한
여기서는 R 표기법을 사용했습니다. 는 인덱스 에서 인덱스 까지 의 좌표로 구성된 벡터 입니다.
역 전파 (back-propogation)는 가중치와 관련하여 오차 함수의 미분을 해결하는 방법으로, 모델은 경사 하강 최적화 방법에 의해 학습 될 수 있습니다. 기본적으로 "체인 규칙"의 적용입니다. 그것보다 훨씬 더 많은 것이 없기 때문에 미적분학에 익숙하다면 기본적으로 그것을 보는 가장 좋은 방법입니다.
미적분학에 익숙하지 않은 경우 실제 출력을 비교할 원하는 출력이 있기 때문에 출력 단위가 얼마나 나쁜지를 아는 것이 더 좋은 방법입니다. 그러나 우리는 숨겨진 유닛에 대해 원하는 결과를 얻지 못하므로 어떻게해야합니까? 역 전파 규칙은 기본적으로 출력 장치의 오류에 대한 책임을 숨겨진 장치로 돌리는 방법입니다. 숨겨진 장치가 특정 출력 장치에 미치는 영향이 클수록 오류에 대한 비난이 커집니다. 숨겨진 유닛과 관련된 총 책임은 입력-숨겨진 레이어 가중치가 얼마나 많이 변경되어야 하는지를 나타냅니다. 얼마나 많은 비난이 다시 전달되는지를 결정하는 두 가지 일은 숨겨진 계층과 출력 계층 가중치를 연결하는 가중치 (분명히)와 숨겨진 단위의 출력입니다 (속삭이지 않고 소리를 지르면 큰 영향을 줄 수 있음). 나머지는 그 직감을 훈련 기준의 파생물로 바꾸는 수학적 미묘한 것입니다.
또한 적절한 답변을 위해 주교도 서를 추천합니다! ;영형)
피드 포워드 멀티 레이어 신경망 (멀티 레이어 퍼셉트론)을 훈련시키기위한 알고리즘입니다. 웹에는 http://neuron.eng.wayne.edu/bpFunctionApprox/bpFunctionApprox.html 과 같이 발생하는 상황을 보여주는 몇 가지 멋진 Java 애플릿이 있습니다. 또한 NN에 관한 Bishop의 책은 NN 과 관련된 모든 것에 대한 표준 데스크 참조 서입니다.