나는 현재 미니 배치 그라디언트 디센트가 안장 점에 갇히는 방법에 약간 당황합니다.
해결책은 너무 사소한 것일 수도 있습니다.
사용자는 각 에포크 새로운 샘플을 얻고, 비용 함수는 각 배치에 대한 정적 인 그래서, 새로운 배치에 기초하여 새로운 에러를 산출하는 기울기는 각 미니 일괄 변하지 .. 이에 따라한다는 것을 의미 이 해야 바닐라 구현에 새들 포인트에 문제가 있습니까?
신경망에 공통적 인 높은 비 볼록 오류 기능을 최소화하는 또 다른 주요 과제는 수많은 차선책 로컬 최소 점에 갇히는 것을 피하는 것입니다. Dauphin et al. [19]는 실제로 지역 최소 점에서가 아니라 안 장점, 즉 한 차원이 위를 향하고 다른 차원이 아래로 경 사진 점에서 어려움이 발생한다고 주장한다. 이 새들 포인트는 일반적으로 같은 오류의 고원으로 둘러싸여 있으며, 모든 치수에서 기울기가 0에 가까워 지므로 SGD가 탈출하기 어려운 것으로 악명이 높습니다.
나는 특히 SGD가 수렴을 향해 변동함에 따라 안 장점에 대해 분명한 이점을 가질 수 있음을 의미 할 것입니다.
전체 배치 그라디언트 괜찮은 경우 오류 함수가 일정하므로 안장 점에 갇힐 수 있다는 것이 합리적입니다.
나는 다른 두 부분에 약간 혼란스러워합니다.