많은 논의에서 비슷한 결론을 보았습니다. 미니 배치 크기가 커질수록 SGD의 수렴이 실제로 더 어려워지고 악화됩니다. 이 논문 과 이 답변을 . 또한 초기 단계에서 소규모 학습 속도 또는 배치 크기와 같은 트릭을 사용하여 배치 크기가 큰 문제를 해결하는 사람들에 대해 들었습니다.
그러나 미니 배치의 평균 손실이 데이터 분포에 대한 예상 손실에 대한 근사치라고 생각할 수 있으므로 직관적이지 않은 것으로 보입니다.
여기에 설명하려는 내 (아마도 잘못된) 생각이 있습니다.
모델의 매개 변수는 서로 크게 의존합니다. 배치가 너무 커지면 한 번에 너무 많은 매개 변수에 영향을 미치므로 매개 변수가 안정적인 고유 한 종속성에 도달하기 어렵습니까? (내부 공변량 이동 문제와 같이 배치 정규화 논문에 )
또는 거의 모든 매개 변수가 모든 반복에 책임이있을 때 중복 암시 적 패턴을 배우는 경향이 있으므로 모델의 용량을 줄입니까? (숫자 분류 문제의 경우 일부 패턴은 점, 일부는 모서리를 담당해야하지만 이것이 발생할 때 모든 패턴은 모든 모양을 담당합니다).
또는 배치 크기가 훈련 세트의 규모에 가까워 질 때 미니 배치는 더 이상 데이터 분포에서 iid로 볼 수 없기 때문에 상관 관계가있는 미니 배치가 발생할 가능성이 높습니까?
최신 정보
Benoit Sanchez의 답변에서 지적한 한 가지 중요한 이유는 큰 미니 배치가 한 번의 업데이트를 완료하기 위해 더 많은 계산이 필요하고 대부분의 분석은 비교를 위해 고정 된 양의 훈련 시대를 사용하기 때문입니다.
그러나이 논문 (Wilson and Martinez, 2003)은 충분한 양의 훈련 기간이 있더라도 더 큰 배치 크기가 여전히 약간 불리하다는 것을 보여줍니다. 일반적으로 그렇습니까?