피드백 RNN과 LSTM / GRU의 차이점


20

시계열 데이터에 적용 할 다른 RNN (Recurrent Neural Network) 아키텍처를 이해하려고하는데 RNN을 설명 할 때 자주 사용되는 다른 이름과 약간 혼동되고 있습니다. LSTM (Long Shortterm Memory) 및 GRU (Gated Recurrent Unit)의 구조는 본질적으로 피드백 루프가있는 RNN입니까?


2
약어를 철자하십시오.
gung-Monica Monica 복원

답변:


34

모든 RNN에는 반복 레이어에 피드백 루프가 있습니다. 이를 통해 시간이 지남에 따라 정보를 '메모리'로 유지할 수 있습니다. 그러나 장기적인 시간 의존성을 학습해야하는 문제를 해결하기 위해 표준 RNN을 훈련시키는 것은 어려울 수 있습니다. 손실 함수의 기울기가 시간에 따라 기하 급수적으로 소멸되기 때문입니다 (배니싱 기울기 문제). LSTM 네트워크는 표준 장치 외에 특수 장치를 사용하는 RNN 유형입니다. LSTM 장치에는 정보를 장기간 메모리에 유지할 수있는 '메모리 셀'이 포함되어 있습니다. 게이트 세트는 정보가 메모리에 들어가는시기, 출력되는시기 및 잊혀진시기를 제어하는 ​​데 사용됩니다. 이 아키텍처를 통해 장기적인 종속성을 배울 수 있습니다. GRU는 LSTM과 유사하지만 단순화 된 구조를 사용합니다.

이 백서는 좋은 개요를 제공합니다.

Chung et al. (2014) . 시퀀스 모델링에 문이 반복 된 신경망의 경험적 평가.


5

표준 RNN (Recurrent Neural Networks)은 사라지고 폭발적인 그래디언트 문제로 어려움을 겪습니다. LSTM (Long Short Term Memory)은 그라디언트 흐름을보다 잘 제어하고 "장거리 종속성"을보다 잘 보존 할 수있는 입력 및 잊어 버림 게이트와 같은 새로운 게이트를 도입하여 이러한 문제를 해결합니다.


2

LSTM은 종종 공상 RNN이라고합니다. 바닐라 RNN에는 셀 상태가 없습니다. 숨겨진 상태 만 있으며 숨겨진 상태는 RNN의 메모리 역할을합니다.

한편 LSTM에는 셀 상태와 숨겨진 상태가 있습니다. 셀 상태는 "게이트"로 조절되는 셀에 정보를 제거하거나 추가 할 수 있습니다. 그리고이 "셀"때문에 이론상 LSTM은 장기 의존성을 처리 할 수 ​​있어야합니다 (실제로는 그렇게하기가 어렵습니다).


-1

TL; DR

RNN에서 LSTM (Long Short-Term Memory)으로 이동할 때 훈련 된 가중치에 따라 입력의 흐름과 믹싱을 제어하는 ​​제어 노브가 점점 더 많이 도입되고 있다고 말할 수 있습니다. 따라서 출력을 제어하는 ​​데 더 많은 유연성을 제공합니다. 따라서 LSTM은 가장 뛰어난 제어 기능과 더 나은 결과를 제공합니다. 그러나 더 복잡하고 운영 비용도 함께 제공됩니다.

참고


[ 참고 ] :

LSTM은 확장 버전의 GRU입니다.


이 이미지는 이들의 차이점을 보여줍니다.

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.