미니 배치의 크기를 선택하기위한 규칙이 있습니까?


21

신경망을 훈련 할 때 하나의 하이퍼 파라미터는 미니 배치의 크기입니다. 일반적인 배치는 미니 배치 당 32, 64 및 128 요소입니다.

미니 배치가 얼마나 큰 규칙 / 지침이 있습니까? 교육에 대한 영향을 조사하는 출판물이 있습니까?


메모리에 맞추는 것 외에?
Ehsan M. Kermani

예. 예를 들어, "배치 크기가 클수록 더 좋습니다"라는 출판물이 있습니까 (메모리에 맞는 한)?
Martin Thoma

@ EhsanM.Kermani 그것이 중요하다고 생각합니다. CIFAR-100에서 몇 번의 런을했고 배치 크기에 따라 다른 결과를 얻었습니다 (초기 정지로 과적 합이 문제가되지 않음)
Martin Thoma

3
더 큰 계산은 더 빠르게 (효율적), 더 작은 수렴은 더 빠르게 일반화됩니다. cf. 확률 적 최적화이 RNN 연구를 위한 효율적인 미니 배치 교육 . 문제에 대해 경험적으로 찾을 수있는 달콤한 장소가 있습니다.
Emre

2
Blei et al의 가장 통찰력있는 논문이 방금 나왔습니다 : 대략적인 베이지안 추론으로서의 확률 적 그라디언트 디센트
Emre

답변:


22

깊은 학습을위한 온 대형 일괄 교육 : 일반화 갭 샤프 최저치 intersting 문장의 몇 가지 있습니다 :

실제로 더 큰 배치를 사용할 때 일반화 할 수있는 능력에 의해 측정 된 모델의 품질이 저하되는 것이 관찰되었습니다.

대규모 배치 방법은 훈련 및 테스트 기능의 예리한 최소화기로 수렴하는 경향이 있으며, 잘 알려진 바와 같이 예리한 최소값은 일반화를 저하시킵니다. 엔. 대조적으로, 소형 배치 방법은 일관 적으로 최소 크기로 수렴되며, 본 실험은 기울기 추정에서 고유 한 잡음으로 인한 일반적인 견해를지지합니다.

에서 내 석사 논문 : 미니 배치 크기의 영향에 따라서 선택 :

  • 수렴까지의 훈련 시간 : 좋은 점이있는 것 같습니다. 배치 크기가 매우 작은 경우 (예 : 8) 이번에는 증가합니다. 배치 크기가 크면 최소값보다 큽니다.
  • 에포크 당 훈련 시간 : 더 큰 계산은 더 빠르다 (효율적)
  • 결과 모델 품질 : 더 나은 일반화 (?)로 인해 낮을수록 좋습니다.

하이퍼 파라미터 상호 작용 에주의해야합니다 . 배치 크기는 다른 하이퍼 파라미터, 특히 학습 속도와 상호 작용할 수 있습니다. 일부 실험에서 이러한 상호 작용으로 인해 배치 크기 만 모델 품질에 미치는 영향을 분리하기 어려울 수 있습니다. 또 다른 강력한 상호 작용은 정규화를 조기에 중지하는 것입니다.

참조


@NeilSlater 내 (현재 커뮤니티 위키) 답변에 의견을 추가 하시겠습니까?
Martin Thoma

나는 대답을 일반적인 것으로 좋아합니다. 또한 나는 무엇에 대한 다수 가지고 감사하겠습니다 아주 작은 , 거대한미니 배치 특정의 예입니다.
So S

@SoS mini-batch는 용어 일뿐입니다. "미니"는 특정 크기를 나타내지 않지만 단지 하나 이상의 예가 있고 전체 훈련 세트보다 작다는 것을 의미합니다. 나는 "매우 작음"을 <= 8로 간주합니다 (방금 답변을 편집했습니다). 또한 벽시계 훈련 시간이 5 배 이상 크게 증가한 것을 측정했습니다. 보통 64 나 128과 같습니다. "거대한"이 무엇인지 잘 모르겠습니다. 나는 이것이 하드웨어에 달려 있다고 생각합니다.
Martin Thoma

이 답변은 답변보다 더 많은 질문을합니다. 이 스위트 스팟은 어디에 있습니까? 학습 속도 및 조기 중단과 어떻게 상호 작용합니까?
xjcl

답은 네트워크와 데이터 세트에 따라 다릅니다. 따라서 특정 숫자를 제공하는 것은 의미가 없으므로 그래프가 도움이되지 않습니다. 다른 하이퍼 파라미터와의 상호 작용에 대해 : 확실하지 않습니다. 그것을 시도하고 결과를 게시하십시오 :-)
Martin Thoma
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.