미니 배치 그라디언트 괜찮은 것을 구현했을 때 훈련 배치의 모든 예제의 그라디언트를 평균화했습니다. 그러나, 이제는 최적의 학습 속도가 온라인 그래디언트보다 훨씬 높다는 것을 알았습니다. 내 직감은 평균 그라디언트가 덜 시끄럽기 때문에 더 빨리 따라갈 수 있기 때문입니다. 따라서 배치의 그라디언트를 요약하는 것만으로도 의미가 있습니다. 어쨌든 값은 양수와 음수 일 수 있습니다.
학습 속도를 사용하여 균형을 유지할 수있는 일정한 요인이라는 것을 알고 있습니다. 그러나 신경망 논문의 결과를 재현 할 수 있도록 과학자들이 동의 한 정의가 궁금합니다.
일반적으로 배치의 합계 그라디언트를 배치 크기로 나눕니 까?