역 전파 알고리즘의 운동량 용어는 어떻게 작동합니까?

운동량 항과 함께 역 전파 알고리즘을 사용하여 신경망의 가중치를 업데이트 할 때 학습 속도도 운동량 항에 적용되어야합니까?

운동량 사용에 대해 찾을 수있는 대부분의 정보는 다음과 같은 방정식을 갖습니다.

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

어디 $\alpha$ 학습률이며 $\mu$ 운동량 항입니다.

만약에 $\mu$ 용어가 $\alpha$ 다음 반복에서 용어 $\Delta W$ 이전 반복에서 현재 반복보다 가중치에 더 큰 영향을 미칩니다.

이것이 모멘텀 기간의 목적입니까? 또는 방정식이 다음과 같이 보일까요?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

즉. 학습 속도로 모든 것을 확장?

machine-learning neural-networks

— guskenny83
소스

네트워크에서 운동량과 함께 역 전파 사용 $n$ 다른 무게 $W_k$ 그만큼 $i$ 체중 교정 $W_k$ ~에 의해 주어진다

$\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ 어디 $\frac{\partial E}{\partial W_k}$ 손실 wrt의 변화입니다 $W_k$ .

운동량 비율의 도입은 경사 하강에서 진동의 감쇠를 허용합니다. 이 아이디어의 기하학적 아이디어는 선형 경우의 고유 공간 분석 측면에서 가장 잘 이해할 수 있습니다. 가장 낮은 고유 값과 가장 큰 고유 값 사이의 비율이 크면 행렬의 컨디셔닝으로 인해 학습 속도가 큰 경우에도 기울기 하강을 수행하는 속도가 느려집니다. 운동량은 더 낮고 더 큰 고유 값과 관련된 고유 벡터 사이의 업데이트에서 약간의 균형을 가져옵니다.

자세한 내용은 참조

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

— 니코
소스

밑줄은 무엇을 의미합니까?

— David Richerby

따라서 운동량 항은

Δ W_{k}

$\Delta W_k$ "새"중량 값을 계산할 때 추가되는 것이 아니라 용어? 명확하게하기 위해, 당신의 용어가

μ W_{k} (i - 1)

$\mu W_k(i-1)$ 있다

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$ ? 또는 비율 변화가 아닌 실제 무게의 비율입니까? 귀하의 답변과 논문 링크에 감사드립니다.

— guskenny83

실수를 지적 해 주셔서 감사합니다. 물론입니다

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

— nico

"손실의 변화"는 무엇을 의미합니까? "오류의 변화"와 같은 것입니까?

— starbeamrainbowlabs

그것은 가중치와 관련하여 오류의 파생물만을 의미합니다.

— 니코