LSTM 장치가있는 RNN도 왜 "그라데이션 폭발"로 고통받을 수 있습니까?


13

RNN (특히 LSTM 단위)의 작동 방식에 대한 기본 지식이 있습니다. LSTM 장치의 구조, 즉 셀과 몇 개의 게이트로 구성된 값의 흐름을 조절하는 그림 아이디어가 있습니다.

그러나 LSTM이 기존 RNN 인 시간 전파를 통해 훈련하는 동안 발생하는 "배니싱 및 폭발 그라디언트"문제를 해결하는 방법을 완전히 이해하지 못했습니다. 나는 수학을 완전히 이해하기 위해 논문을 읽을 기회가 없었습니다.

이 답변 은 LSTM 장치가있는 RNN이 "배니싱 그라디언트"문제를 해결하는 방법에 대한 간략한 설명을 제공합니다. 수학적으로, 그 이유는 사라지지 않는, 즉 0이 아닌 파생 상품이 존재하지 않는 것 같습니다. 결과적으로 저자는 "그라디언트가 사라지지 않는 적어도 하나의 경로가있다"고 말합니다. IMHO,이 설명은 약간 모호합니다.

한편, 신경망을 이용한 시퀀스 학습 시퀀스 논문 (저서 Ilya Sutskever, Oriol Vinyals, Quoc V. Le)을 읽었으며이 백서에서는 "3.4 교육 세부 사항"섹션에 설명되어 있습니다.

LSTM은 소실 구배 문제를 겪지 않는 경향이 있지만 폭발 구배를 가질 수 있습니다.

LSTM 장치가있는 RNN은 항상 "소멸"및 "폭발 그라디언트"문제를 모두 해결한다고 생각했지만 LSTM 장치가있는 RNN도 "폭발 그라디언트"로 어려움을 겪고 있습니다.

직관적 인 이유는 무엇입니까? 수학적으로 그 이유는 무엇입니까?

답변:


12

아주 짧은 대답 :

LSTM은 셀 상태 (일반적으로로 표시됨 c)와 숨겨진 레이어 / 출력 (일반적으로로 표시됨 h)을 분리하고에 대한 추가 업데이트 만 수행 c하여 메모리를 c보다 안정적으로 만듭니다. 따라서, 그라디언트 흐름 c은 유지되고 사라지기 어렵다 (따라서 전체 그라디언트는 사라지기 어렵다). 그러나 다른 경로는 그라디언트 폭발을 일으킬 수 있습니다.


수학적 설명과 함께보다 자세한 답변 :

tt+1dl/dctyhδct=+δct+1ft+1ft+1δct+1δct

ctct+1ytot+1yt+1δytRoTδot+1δyt+1RoTδot+2RoTRiT,RfT,RzT

참고:

K. Greff, RK Srivastava, J. Koutn´ık, BR Steunebrink 및 J.Schmidhuber. LSTM : 검색 공간 오디세이. CoRR, abs / 1503.04069, 2015.


그 논문에 대한 완전한 인용을 포함시킬 수 있습니까? 연결이 끊어지는 경향이 있습니다.
mkt-Reinstate Monica

2
@mkt 조언 해 주셔서 감사합니다. 실제로 이것은 매우 유명한 논문이며 링크는 arXiv로 이동하므로 죽지 않을 것입니다. lol ~ 그러나 버전 v1을 확인하십시오 (현재 버전 v2에는 부록이 포함되어 있지 않기 때문에).
soloice

어쨌든 추가하고 부록에 대한 세부 정보를 추가해 주셔서 감사합니다.
mkt-Reinstate Monica

좋은 대답은, 일반적으로 +1을 넣는 것에 대해서는 언급하지 않지만, 그럴만한 가치가 있습니다. LSTM 셀에서 불안정한 경로의 행렬 대수를 사용하여 실제 예제를 표시하면 OP에 정확하게 응답합니다.
DeltaIV

3

0.992000.134
1200=1
1.0120013

그러나 그래디언트가 불안정해질 수있는 경로가 여전히 있으며 그물이 클수록이 문제에 빠질 가능성이 높습니다.


3
왜 이것이 내 질문에 대답합니까? 자세한 내용을 알고 싶습니다.
nbro
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.