GRU와 LSTM의 주요 차이점은 GRU에는 2 개의 게이트 ( 리셋 및 업데이트 게이트)가 있고 LSTM에는 3 개의 게이트 (즉, 입력 , 출력 및 잊어 버림 게이트)가 있다는 것입니다.
LSTM 모델 (세 개의 게이트가 있음)을 통해 네트워크를보다 잘 제어 할 때 왜 GRU를 사용합니까? 어떤 시나리오에서 GRU가 LSTM보다 선호됩니까?
GRU와 LSTM의 주요 차이점은 GRU에는 2 개의 게이트 ( 리셋 및 업데이트 게이트)가 있고 LSTM에는 3 개의 게이트 (즉, 입력 , 출력 및 잊어 버림 게이트)가 있다는 것입니다.
LSTM 모델 (세 개의 게이트가 있음)을 통해 네트워크를보다 잘 제어 할 때 왜 GRU를 사용합니까? 어떤 시나리오에서 GRU가 LSTM보다 선호됩니까?
답변:
GRU는 사라지는 그래디언트 문제를 방지하기 위해 정보를 게이팅하는 경우 서로 다른 방식을 사용하므로 LSTM과 관련이 있습니다. 다음은 GRU vs LSTM-에 대한 몇 가지 정확한 설명입니다.
자세한 설명은이 연구 논문 -Arxiv.org를 참조하십시오 . 이 논문은이 모든 것을 훌륭하게 설명합니다.
또한 더 나은 아이디어를 얻기 위해이 블로그를 탐색 할 수도 있습니다.
그것이 도움이되기를 바랍니다!
* 위의 이미 큰 답변을 보완합니다.
내 경험상 GRU 는 언어 모델링을 수행하는 경우 다른 작업에 대해 잘 모르는 경우 적은 교육 데이터로 LSTM보다 더 빠르게 훈련 하고 성능을 향상시킵니다 .
GRU는 예를 들어 네트워크에 추가 입력이있을 경우 새 게이트를 추가하는 등 더 간단 하고 수정하기 쉽습니다. 일반적으로 코드가 적습니다.
LSTM 은 이론적으로 GRU보다 긴 시퀀스를 기억 하고 장거리 관계 모델링이 필요한 작업에서 성능을 능가해야합니다.
* GRU 및 LSTM을 분석하는 일부 추가 논문.
"신경 GPU 학습 알고리즘"(Łukasz Kaiser, Ilya Sutskever, 2015) https://arxiv.org/abs/1511.08228
"자연어 처리를위한 CNN과 RNN의 비교 연구"(Wenpeng Yin et al. 2017) https://arxiv.org/abs/1702.01923
이 답변은 실제로 데이터 세트와 유스 케이스에 있습니다. 어느 쪽이 더 좋은지 결정하기는 어렵습니다.
실제로 주요 차이점은 다음과 같습니다. LSTM (Long-short term) 퍼셉트론은 운동량 및 경사 하강 알고리즘을 사용하여 구성됩니다. LSTM 퍼셉트론을 재귀 상대 RNN과 조정하면 실제로 일반화 된 반복 단위 또는 상황에 따라 그라디언트 반복 단위 인 GRU를 사용하여 운동량과 경사 하강 알고리즘을보다 밀접하게 통합합니다. 저는 당신입니다. AdamOptimizers에 대해 더 많은 연구를하고 싶습니다.
그런데 GRU는 구식 개념입니다. 그러나 TF에 대한 중간 수준의 심층 지식을 원한다면 연구를 이해하고 있습니다.