3
RNN에서 시간이지나면서 다시 전파되는 이유는 무엇입니까?
반복적 인 신경망에서는 일반적으로 여러 시간 단계를 통해 전파되고 네트워크를 "롤링 해제"한 다음 입력 시퀀스를 통해 전파됩니다. 시퀀스에서 각 개별 단계 후에 가중치를 업데이트하지 않는 이유는 무엇입니까? (잘림 길이 1을 사용하는 것과 동일하므로 롤링 할 것이 없습니다.) 이것은 사라지는 기울기 문제를 완전히 제거하고 알고리즘을 크게 단순화하며 아마도 현지 최소값에 걸릴 …