답변:
"최적화 환경"을 생각하십시오. 예를 들어 가중치가 두 개인 네트워크가있는 경우 표면에이 두 가중치의 모든 조합을 표시 할 수 있습니다. 여기서 각 포인트의 높이는 (x, y를 사용하는 경우 비용 함수가 반환하는 오류의 양을 나타냅니다. )를 두 가중치로 조정합니다. 가장 낮은 수준의 오류를 얻기 위해이 표면에서 가장 낮은 지점으로 이동하려고합니다.
문제는 때로는 표면이 두 개가 아닌 수백만 개의 매개 변수를 가진 네트워크에서 매우 미친 듯이 보일 수 있다는 것입니다. 진행이 느려지는 안장 지점에 갇혀 갑자기 언덕으로 내려갈 수 있습니다.
여기에 도움을 애니메이션이 시각화입니다
당신이 더 기본적인 그라데이션 하강 알고리즘이 훨씬 더 쉽게이 위치에 박히면서 볼 수 있듯이.
이것에 대한 다른 원인도있을 수 있지만 이것이 가장 일반적으로 듣는 원인입니다. 네트워크에 포화 활성화 (또는 매우 적은 수의 훈련 입력으로 만 활성화되는 relu의 경우)를받는 여러 장치가있을 수 있으며 하나의 장치가 포화 상태에서 벗어날 수 있습니다. 나머지 부분을 채도에서 벗어나게하는 연쇄 반응을 시작하고 무게가 갑자기 구배 흐름을 증가 시키는가? 나는 그런 것을 보지 않았지만 다른 이유가 있다면 관심이 있습니다.