운동량 항과 함께 역 전파 알고리즘을 사용하여 신경망의 가중치를 업데이트 할 때 학습 속도도 운동량 항에 적용되어야합니까?
운동량 사용에 대해 찾을 수있는 대부분의 정보는 다음과 같은 방정식을 갖습니다.
어디 학습률이며 운동량 항입니다.
만약에 용어가 다음 반복에서 용어 이전 반복에서 현재 반복보다 가중치에 더 큰 영향을 미칩니다.
이것이 모멘텀 기간의 목적입니까? 또는 방정식이 다음과 같이 보일까요?
즉. 학습 속도로 모든 것을 확장?
운동량 항과 함께 역 전파 알고리즘을 사용하여 신경망의 가중치를 업데이트 할 때 학습 속도도 운동량 항에 적용되어야합니까?
운동량 사용에 대해 찾을 수있는 대부분의 정보는 다음과 같은 방정식을 갖습니다.
어디 학습률이며 운동량 항입니다.
만약에 용어가 다음 반복에서 용어 이전 반복에서 현재 반복보다 가중치에 더 큰 영향을 미칩니다.
이것이 모멘텀 기간의 목적입니까? 또는 방정식이 다음과 같이 보일까요?
즉. 학습 속도로 모든 것을 확장?
답변:
네트워크에서 운동량과 함께 역 전파 사용 다른 무게 그만큼 체중 교정 ~에 의해 주어진다
어디 손실 wrt의 변화입니다 .
운동량 비율의 도입은 경사 하강에서 진동의 감쇠를 허용합니다. 이 아이디어의 기하학적 아이디어는 선형 경우의 고유 공간 분석 측면에서 가장 잘 이해할 수 있습니다. 가장 낮은 고유 값과 가장 큰 고유 값 사이의 비율이 크면 행렬의 컨디셔닝으로 인해 학습 속도가 큰 경우에도 기울기 하강을 수행하는 속도가 느려집니다. 운동량은 더 낮고 더 큰 고유 값과 관련된 고유 벡터 사이의 업데이트에서 약간의 균형을 가져옵니다.
자세한 내용은 참조