역 전파 알고리즘의 운동량 용어는 어떻게 작동합니까?


9

운동량 항과 함께 역 전파 알고리즘을 사용하여 신경망의 가중치를 업데이트 할 때 학습 속도도 운동량 항에 적용되어야합니까?

운동량 사용에 대해 찾을 수있는 대부분의 정보는 다음과 같은 방정식을 갖습니다.

Wi=WiαΔWi+μΔWi1

어디 α 학습률이며 μ 운동량 항입니다.

만약에 μ 용어가 α 다음 반복에서 용어 ΔW 이전 반복에서 현재 반복보다 가중치에 더 큰 영향을 미칩니다.

이것이 모멘텀 기간의 목적입니까? 또는 방정식이 다음과 같이 보일까요?

Wi=Wiα(ΔWi+μΔWi1)

즉. 학습 속도로 모든 것을 확장?

답변:


10

네트워크에서 운동량과 함께 역 전파 사용 n 다른 무게 Wk 그만큼 i체중 교정 Wk ~에 의해 주어진다

ΔWk(i)=αEWk+μΔWk(i1) 어디 EWk 손실 wrt의 변화입니다 Wk.

운동량 비율의 도입은 경사 하강에서 진동의 감쇠를 허용합니다. 이 아이디어의 기하학적 아이디어는 선형 경우의 고유 공간 분석 측면에서 가장 잘 이해할 수 있습니다. 가장 낮은 고유 값과 가장 큰 고유 값 사이의 비율이 크면 행렬의 컨디셔닝으로 인해 학습 속도가 큰 경우에도 기울기 하강을 수행하는 속도가 느려집니다. 운동량은 더 낮고 더 큰 고유 값과 관련된 고유 벡터 사이의 업데이트에서 약간의 균형을 가져옵니다.

자세한 내용은 참조

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf


밑줄은 무엇을 의미합니까?
David Richerby

따라서 운동량 항은 ΔWk"새"중량 값을 계산할 때 추가되는 것이 아니라 용어? 명확하게하기 위해, 당신의 용어가μWk(i1) 있다 μΔWk(i1)? 또는 비율 변화가 아닌 실제 무게의 비율입니까? 귀하의 답변과 논문 링크에 감사드립니다.
guskenny83

실수를 지적 해 주셔서 감사합니다. 물론입니다ΔWk(i1)
nico

"손실의 변화"는 무엇을 의미합니까? "오류의 ​​변화"와 같은 것입니까?
starbeamrainbowlabs

그것은 가중치와 관련하여 오류의 파생물만을 의미합니다.
니코
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.