RNN (특히 LSTM 단위)의 작동 방식에 대한 기본 지식이 있습니다. LSTM 장치의 구조, 즉 셀과 몇 개의 게이트로 구성된 값의 흐름을 조절하는 그림 아이디어가 있습니다.
그러나 LSTM이 기존 RNN 인 시간 전파를 통해 훈련하는 동안 발생하는 "배니싱 및 폭발 그라디언트"문제를 해결하는 방법을 완전히 이해하지 못했습니다. 나는 수학을 완전히 이해하기 위해 논문을 읽을 기회가 없었습니다.
이 답변 은 LSTM 장치가있는 RNN이 "배니싱 그라디언트"문제를 해결하는 방법에 대한 간략한 설명을 제공합니다. 수학적으로, 그 이유는 사라지지 않는, 즉 0이 아닌 파생 상품이 존재하지 않는 것 같습니다. 결과적으로 저자는 "그라디언트가 사라지지 않는 적어도 하나의 경로가있다"고 말합니다. IMHO,이 설명은 약간 모호합니다.
한편, 신경망을 이용한 시퀀스 학습 시퀀스 논문 (저서 Ilya Sutskever, Oriol Vinyals, Quoc V. Le)을 읽었으며이 백서에서는 "3.4 교육 세부 사항"섹션에 설명되어 있습니다.
LSTM은 소실 구배 문제를 겪지 않는 경향이 있지만 폭발 구배를 가질 수 있습니다.
LSTM 장치가있는 RNN은 항상 "소멸"및 "폭발 그라디언트"문제를 모두 해결한다고 생각했지만 LSTM 장치가있는 RNN도 "폭발 그라디언트"로 어려움을 겪고 있습니다.
직관적 인 이유는 무엇입니까? 수학적으로 그 이유는 무엇입니까?