신경망을 훈련 할 때 하나의 하이퍼 파라미터는 미니 배치의 크기입니다. 일반적인 배치는 미니 배치 당 32, 64 및 128 요소입니다.
미니 배치가 얼마나 큰 규칙 / 지침이 있습니까? 교육에 대한 영향을 조사하는 출판물이 있습니까?
메모리에 맞추는 것 외에?
—
Ehsan M. Kermani
예. 예를 들어, "배치 크기가 클수록 더 좋습니다"라는 출판물이 있습니까 (메모리에 맞는 한)?
—
Martin Thoma
@ EhsanM.Kermani 그것이 중요하다고 생각합니다. CIFAR-100에서 몇 번의 런을했고 배치 크기에 따라 다른 결과를 얻었습니다 (초기 정지로 과적 합이 문제가되지 않음)
—
Martin Thoma
더 큰 계산은 더 빠르게 (효율적), 더 작은 수렴은 더 빠르게 일반화됩니다. cf. 확률 적 최적화 및 이 RNN 연구를 위한 효율적인 미니 배치 교육 . 문제에 대해 경험적으로 찾을 수있는 달콤한 장소가 있습니다.
—
Emre
Blei et al의 가장 통찰력있는 논문이 방금 나왔습니다 : 대략적인 베이지안 추론으로서의 확률 적 그라디언트 디센트
—
Emre