확률 적 경사 하강을 수행 할 때 미니 배치 크기 선택을 검토하는 문헌이 있습니까? 내 경험상, 그것은 일반적으로 교차 검증 또는 다양한 경험 규칙을 통해 발견되는 경험적 선택 인 것 같습니다.
유효성 검사 오류가 감소함에 따라 미니 배치 크기를 천천히 늘리는 것이 좋습니까? 이것이 일반화 오류에 어떤 영향을 미칩니 까? 아주 작은 미니 배치를 사용하고 수십만 번 내 모델을 업데이트하는 것이 더 나을까요? 매우 작은 배치와 배치 사이의 균형 잡힌 숫자를 사용하는 것이 더 좋을까요?
미니 배치 크기를 데이터 세트 크기 또는 데이터 세트 내 예상되는 기능 수로 확장해야합니까?
미니 배치 학습 계획을 구현하는 것에 대해 많은 질문이 있습니다. 불행히도, 내가 읽은 대부분의 논문은 실제로 그들이이 하이퍼 파라미터를 어떻게 선택했는지 명시하지 않습니다. 나는 Yann LeCun과 같은 저자들, 특히 트레이드 오브 트레이드 컬렉션 논문에서 성공을 거두었습니다. 그러나 나는 여전히 이러한 질문들이 완전히 해결 된 것을 보지 못했다. 누구나 종이에 대한 권장 사항이나 기능을 배우려고 할 때 좋은 미니 배치 크기를 결정하는 데 사용할 수있는 기준에 대한 조언이 있습니까?