확률 적 경사 하강 (SGD)에 적합한 미니 배치 크기 선택


13

확률 적 경사 하강을 수행 할 때 미니 배치 크기 선택을 검토하는 문헌이 있습니까? 내 경험상, 그것은 일반적으로 교차 검증 또는 다양한 경험 규칙을 통해 발견되는 경험적 선택 인 것 같습니다.

유효성 검사 오류가 감소함에 따라 미니 배치 크기를 천천히 늘리는 것이 좋습니까? 이것이 일반화 오류에 어떤 영향을 미칩니 까? 아주 작은 미니 배치를 사용하고 수십만 번 내 모델을 업데이트하는 것이 더 나을까요? 매우 작은 배치와 배치 사이의 균형 잡힌 숫자를 사용하는 것이 더 좋을까요?
미니 배치 크기를 데이터 세트 크기 또는 데이터 세트 내 예상되는 기능 수로 확장해야합니까?

미니 배치 학습 계획을 구현하는 것에 대해 많은 질문이 있습니다. 불행히도, 내가 읽은 대부분의 논문은 실제로 그들이이 하이퍼 파라미터를 어떻게 선택했는지 명시하지 않습니다. 나는 Yann LeCun과 같은 저자들, 특히 트레이드 오브 트레이드 컬렉션 논문에서 성공을 거두었습니다. 그러나 나는 여전히 이러한 질문들이 완전히 해결 된 것을 보지 못했다. 누구나 종이에 대한 권장 사항이나 기능을 배우려고 할 때 좋은 미니 배치 크기를 결정하는 데 사용할 수있는 기준에 대한 조언이 있습니까?


나는이 주제에 대해 많은 인기를 얻지 못하는 것 같습니다. 기계 학습이나 이와 같은 딥 러닝 질문을하기에 더 나은 스택 교환 사이트가 있습니까?
Jason_L_Bens

답변:


6

SGD의 효과에 대한 이론은 단일 예제 업데이트 (예 : 미니 배치 크기 1)에서 수행되었으므로 더 큰 미니 배치를 사용하는 것은 이론적으로 필요하지 않습니다. 두 가지 실용적인 장점이 있습니다.

하나 는 계산이 벡터화 될 수있는 경우 작은 미니 배치> 1보다 거의 동일한 속도로 그래디언트를 계산하여 훈련 속도를 크게 높일 수 있습니다.

이 경우 최적의 미니 배치 크기는 작업중인 특정 하드웨어 및 구현의 기능이므로 스위트 스팟을 찾기 위해 실험하는 것이 가장 좋습니다.

둘째 , 미니 배치 크기가 1보다 큰 그라디언트를 계산하면보다 정확한 그라디언트와 더 최적의 단계가 생성됩니다. 그러나 미니 배치 크기가 1 이상으로 증가하면이 이점이 신속하게 도달하고 수준이 낮아 지므로 주로 첫 번째 목표에 집중할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.