답변:
그라디언트 소실 또는 그라디언트 폭발 문제가 발생하면 그라디언트 클리핑을 수행하려고합니다. 그러나 두 시나리오 모두 더 나은 솔루션이 있습니다.
그라디언트가 너무 커지고 수치 오버플로가 발생하면 폭발 그라디언트가 발생합니다. 네트워크 가중치를 더 작은 값으로 초기화하면 쉽게 해결할 수 있습니다. 이것이 작동하지 않으면 코드에 버그가있을 수 있습니다.
최적화가 새들 포인트에 갇 히면 그라디언트가 사라집니다. 그래디언트가 너무 작아 최적화가 진행될 수 없습니다. 운동량 또는 RMS prop 또는 둘 다 (Adam 최적화 프로그램이라고도 함)와 함께 기울기 하강을 사용하여이를 해결할 수 있습니다.
그래디언트 클리핑의 상한에 대한 시작 값은 변수가 취할 수있는 가장 큰 수보다 작습니다. 하한의 경우 문제에 따라 다르지만 1e-10과 같은 것으로 시작할 수 있습니다.