LSTM은 소실 구배 문제를 피하기 위해 특별히 고안되었습니다. 아래 다이어그램의 Greff 등의 셀 에서 루프에 해당하는 CEC (Constant Error Carousel)를 사용하여이를 수행해야합니다 .
(출처 : deeplearning4j.org )
그리고 그 부분은 일종의 항등 함수로 볼 수 있으므로 미분은 하나이고 기울기는 일정하게 유지됩니다.
내가 이해하지 못하는 것은 다른 활성화 기능으로 인해 사라지지 않는 방법입니다. 입력, 출력 및 잊어 버림 게이트는 시그 모이 드를 사용하는데,이 파생물은 최대 0.25이고 g와 h는 전통적으로 tanh 입니다. 그라디언트가 사라지지 않는 것을 통해 역전 파는 어떻게됩니까?