LSTM을 통한 GRU 사용시기


95

GRU와 LSTM의 주요 차이점은 GRU에는 2 개의 게이트 ( 리셋업데이트 게이트)가 있고 LSTM에는 3 개의 게이트 (즉, 입력 , 출력잊어 버림 게이트)가 있다는 것입니다.

LSTM 모델 (세 개의 게이트가 있음)을 통해 네트워크를보다 잘 제어 할 때 왜 GRU를 사용합니까? 어떤 시나리오에서 GRU가 LSTM보다 선호됩니까?


1
GRU는 약간 덜 복잡하지만 성능면에서 LSTM만큼 좋습니다. TensorFlow의 구현은 data-blogger.com/2017/08/27/gru-implementation-tensorflow 에서 찾을 수 있습니다 .
www.data-blogger.com

답변:


64

GRU는 사라지는 그래디언트 문제를 방지하기 위해 정보를 게이팅하는 경우 서로 다른 방식을 사용하므로 LSTM과 관련이 있습니다. 다음은 GRU vs LSTM-에 대한 몇 가지 정확한 설명입니다.

  • GRU는 LSTM 장치와 같은 정보의 흐름을 제어하지만 메모리 장치 를 사용할 필요는 없습니다 . 컨트롤없이 숨겨져있는 전체 컨텐츠를 노출합니다.
  • GRU는 비교적 새로운, 내 관점에서, 성능은 LSTM와 파에 있지만 계산 더 효율적 ( 덜 복잡한 구조와 지적 ). 그래서 점점 더 많이 사용되고 있습니다.

자세한 설명은이 연구 논문 -Arxiv.org를 참조하십시오 . 이 논문은이 모든 것을 훌륭하게 설명합니다.

또한 더 나은 아이디어를 얻기 위해이 블로그를 탐색 할 수도 있습니다.

그것이 도움이되기를 바랍니다!


1
답변뿐만 아니라 GRU와 LSTM과 다양한 순열의 성능 평가 멋진 용지가 구글에 의해 "재발 네트워크 아키텍처의 경험적 탐구"
미네랄

38

* 위의 이미 큰 답변을 보완합니다.

  • 내 경험상 GRU 는 언어 모델링을 수행하는 경우 다른 작업에 대해 잘 모르는 경우 적은 교육 데이터로 LSTM보다 더 빠르게 훈련 하고 성능을 향상시킵니다 .

  • GRU는 예를 들어 네트워크에 추가 입력이있을 경우 새 게이트를 추가하는 등 더 간단 하고 수정하기 쉽습니다. 일반적으로 코드가 적습니다.

  • LSTM 은 이론적으로 GRU보다 긴 시퀀스를 기억 하고 장거리 관계 모델링이 필요한 작업에서 성능을 능가해야합니다.

* GRU 및 LSTM을 분석하는 일부 추가 논문.


9

이 답변은 실제로 데이터 세트와 유스 케이스에 있습니다. 어느 쪽이 더 좋은지 결정하기는 어렵습니다.

  • GRU는 LSTM과 달리 전체 메모리를 공개하므로 이점으로 작용하는 응용 프로그램이 도움이 될 수 있습니다. 또한 GRU를 사용해야하는 이유를 추가하면 게이트가 2 개뿐이므로 성능이 LSTM과 동등하기 때문에 LSTM보다 계산이 더 쉽습니다.
  • 백서 는 간단한 RNN에 비해 게이트 네트워크의 우수성을 그래프로 잘 보여 주지만 어느 쪽이 더 나은지 결론을 내릴 수는 없다고 분명히 언급합니다. 따라서 어떤 모델로 사용할 지 혼란 스러우면 두 가지를 모두 훈련 한 다음 더 잘 활용할 것을 제안합니다.

8

풀 GRU 유닛

c~t=tanh(Wc[Grct1,xt]+bc)

Gu=σ(Wu[ct1,xt]+bu)

Gr=σ(Wr[ct1,xt]+br)

ct=Guc~t+(1Gu)ct1

at=ct

LSTM 유닛

c~t=tanh(Wc[at1,xt]+bc)

Gu=σ(Wu[at1,xt]+bu)

Gf=σ(Wf[at1,xt]+bf)

Go=σ(Wo[at1,xt]+bo)

ct=Guc~t+Gfct1

at=Gotanh(ct)

방정식에서 알 수 있듯이 LSTM에는 별도의 업데이트 게이트와 잊어 버린 게이트가 있습니다. 이는 LSTM을보다 정교하게 만들면서 동시에 더욱 복잡하게 만듭니다. 특정 사용 사례에 사용할 방법을 결정하는 간단한 방법은 없습니다. 성능을 테스트하려면 항상 시행 착오를해야합니다. 그러나 GRU가 LSTM보다 단순하기 때문에 GRU는 훈련에 훨씬 적은 시간이 걸리고 더 효율적입니다.

크레딧 : Andrew Ng


a<t>=Γotanh(c~<t>)

1

GRU는 수정이 쉽고 메모리 장치가 필요하지 않기 때문에 LSTM보다 낫습니다. 따라서 LSTM보다 빠르게 훈련하고 성능에 따라 제공합니다.


12
공정한 참조로 성과 주장을지지하십시오
Kari

1

실제로 주요 차이점은 다음과 같습니다. LSTM (Long-short term) 퍼셉트론은 운동량 및 경사 하강 알고리즘을 사용하여 구성됩니다. LSTM 퍼셉트론을 재귀 상대 RNN과 조정하면 실제로 일반화 된 반복 단위 또는 상황에 따라 그라디언트 반복 단위 인 GRU를 사용하여 운동량과 경사 하강 알고리즘을보다 밀접하게 통합합니다. 저는 당신입니다. AdamOptimizers에 대해 더 많은 연구를하고 싶습니다.

그런데 GRU는 구식 개념입니다. 그러나 TF에 대한 중간 수준의 심층 지식을 원한다면 연구를 이해하고 있습니다.


8
궁금해. 왜 GRU가 구식 개념인지 설명해 주시겠습니까?
random_user
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.