전체 데이터 세트와 반대로 미니 배치를 사용하는 주요 이점은 확률 적 경사 하강 1 의 기본 개념으로 돌아갑니다 .
배치 그라디언트 디센트에서 전체 데이터 세트에 대한 그라디언트를 계산하여 잠재적으로 방대한 양의 정보를 평균화합니다. 그렇게하려면 많은 메모리가 필요합니다. 그러나 실제 핸디캡은 배치 그라디언트 궤적이 나쁜 지점 (안 장점)에 도달하는 것입니다.
반면 순수 SGD에서는 데이터 세트 의 단일 인스턴스에서 계산 된 그라디언트를 추가 (빼기)하여 매개 변수를 업데이트합니다 . 하나의 임의의 데이터 포인트를 기반으로하기 때문에 노이즈가 심하며 배치 그라디언트에서 멀어 질 수 있습니다. 그러나 노이즈는 볼록이 아닌 최적화에서 원하는 것입니다. 이는 안장 점 또는 국소 최소 점에서 벗어날 수 있도록 도와주기 때문입니다 (Theorem 6 in [2]). 단점은 매우 비효율적이며 좋은 솔루션을 찾기 위해 전체 데이터 세트를 여러 번 반복해야한다는 것입니다.
미니 배치 방법은 상대적으로 빠른 수렴을 달성하면서 각 기울기 업데이트에 충분한 노이즈를 주입하는 절충안입니다.
1 Bottou, L. (2010). 확률 적 경사 하강을 이용한 대규모 기계 학습. COMPSTAT'2010 (pp. 177-186). Physica-Verlag HD.
[2] Ge, R., Huang, F., Jin, C., & Yuan, Y. (2015 년 6 월). 텐서 분해를위한 중철 점 온라인 스토캐스틱 그라디언트에서 탈출. COLT에서 (pp. 797-842).
편집하다 :
방금 Yann LeCun의 페이스 북에 대한이 의견을 보았습니다.이 질문에 대한 신선한 관점을 제공합니다 (죄송합니다.
큰 미니 배치 훈련은 건강에 좋지 않습니다. 더 중요한 것은 테스트 오류로 나쁜 것입니다. 친구는 친구가 32보다 큰 미니 배치를 사용하지 못하게합니다. 직면하자 : 2012 년 이후로 1보다 큰 미니 배치 크기로 전환 한 유일한 사람들은 32 배보다 작은 배치 크기에 대해 GPU가 비효율적이기 때문입니다. 그 이유는 끔찍한 이유입니다. 그것은 단지 우리의 하드웨어가 짜증을 의미합니다.
그는 며칠 전에 arXiv에 게시 된이 논문을 인용했습니다 (2018 년 4 월).
Dominic Masters, Carlo Luschi, 심층 신경망을위한 소규모 배치 교육 재 방문 , arXiv : 1804.07612v1
초록에서
큰 미니 배치를 사용하면 사용 가능한 계산 병렬 처리가 증가하지만 작은 배치 훈련은 향상된 일반화 성능을 제공하는 것으로 나타났습니다 ...
m = 2에서 m = 32 사이의 미니 배치 크기에 대해 최상의 성능이 일관되게 얻어졌으며, 이는 수천 개의 미니 배치 크기 사용을 주장하는 최근의 작업과 대조됩니다.