(미니) 배치 그라디언트 괜찮은 그라디언트의 합 또는 평균?

미니 배치 그라디언트 괜찮은 것을 구현했을 때 훈련 배치의 모든 예제의 그라디언트를 평균화했습니다. 그러나, 이제는 최적의 학습 속도가 온라인 그래디언트보다 훨씬 높다는 것을 알았습니다. 내 직감은 평균 그라디언트가 덜 시끄럽기 때문에 더 빨리 따라갈 수 있기 때문입니다. 따라서 배치의 그라디언트를 요약하는 것만으로도 의미가 있습니다. 어쨌든 값은 양수와 음수 일 수 있습니다.

학습 속도를 사용하여 균형을 유지할 수있는 일정한 요인이라는 것을 알고 있습니다. 그러나 신경망 논문의 결과를 재현 할 수 있도록 과학자들이 동의 한 정의가 궁금합니다.

일반적으로 배치의 합계 그라디언트를 배치 크기로 나눕니 까?

neural-networks gradient-descent backpropagation

— 다니야 르
소스

평균.

예 : Alex Holehouse가 편집 한 Coursera의 Andrew Ng의 기계 학습 과정 참고 사항 .

개별 샘플로 인한 그라디언트를 합하면 훨씬 부드러운 그라디언트를 얻을 수 있습니다. 배치가 클수록 가중치를 업데이트하는 데 사용되는 그래디언트가 더 매끄 럽습니다.

합계를 배치 크기로 나누고 평균 기울기를 사용하면 다음과 같은 효과가 있습니다.

무게의 크기는 비례하지 않습니다. 가중치 업데이트에 L2 정규화를 추가하면 큰 가중치가 적용됩니다. 이것은 종종 일반화 성능을 향상시킵니다. 특히 그라디언트가 같은 방향을 가리키는 경우 평균을 취하면 가중치가 너무 커지지 않도록하십시오.
그래디언트의 크기는 배치 크기와 무관합니다. 이를 통해 다른 배치 크기를 사용하는 다른 실험의 가중치를 비교할 수 있습니다.
학습 속도와 배치 크기의 영향을 비교하는 것은 수치 적으로 동일 할 수 있지만 구현 특정 학습 속도로 끝납니다. 사람들이 사용중인 매개 변수의 규모와 관련이없고 실험을 재현하는 데 어려움이있는 경우 결과와 실험 설정을 전달하기가 어렵습니다.

평균화는 배치 크기와 무관하게 더 명확한 비교 성을 제공하고 그라디언트 크기를 유지합니다. 배치 크기를 선택하는 것은 때때로 계산 리소스에 의해 제약을받으며 모델을 평가할 때이 효과를 완화하려고합니다.

— ypx
소스

링크는 이제 죽었다

— cdeterman

업데이트 된 링크, Alex Holehouse의 잘 컴파일 된 메모를 선택했기 때문에 더 이상 원본 슬라이드에 연결할 수 없습니다 .

— ypx

이 튜토리얼은 평균이 아닌 요약으로 진행되는 것 같습니다. deeplearning.net/tutorial/gettingstarted.html#regularization

— AD