LSTM에 가장 적합한 최적화 방법은 무엇입니까?

20

나는 theano를 사용하여 LSTM을 실험 해 왔으며 LSTM에 가장 적합한 최적화 방법 (SGD, Adagrad, Adadelta, RMSprop, Adam 등)이 궁금하십니까? 이 주제에 관한 연구 논문이 있습니까?

또한 대답은 LSTM을 사용하는 응용 프로그램 유형에 따라 달라 집니까? 그렇다면 텍스트 분류를 위해 LSTM을 사용하고 있습니다 (텍스트는 먼저 단어 벡터로 변환됩니다).

마지막으로, RNN에 대한 답이 같거나 다를까요? 연구 논문이나 개인적인 통찰력에 대한 조언은 높이 평가 될 것입니다!

LSTM은 매우 강력 해 보이며이를 가장 잘 사용하는 방법에 대해 더 많이 배우고 싶습니다.

machine-learning neural-networks optimization lstm

— 사과
소스

7

: 아이러니하게도 LSTMs에 가장 최적화 자체는 LSTMs 있습니다 https://arxiv.org/abs/1606.04474 그라데이션 하강으로 그라데이션 하강에 의해 배울 학습.

기본 아이디어는 신경망 (특히 LSTM 네트워크)을 사용하여 원래 네트워크의 그라디언트를 공동 학습하고 가르치는 것입니다. 이것을 메타 학습이라고합니다.

이 방법은 Juergen Schmidhuber가 2000 년에 제안했지만 최근 RNN 교육에서 다른 최적화 프로그램보다 성능이 우수한 것으로 나타났습니다. (멋진 그래픽은 원본 용지를 참조하십시오)

— 아노 나 112
소스

링크의 내용을 알려 주면 확장 할 수 있습니까?

— mdewey

당신의 즐거움을 위해 수정되었습니다. 원래 질문은 "LSTM에 가장 적합한 최적화 방법은 무엇입니까?"였습니다. "LSTM에 가장 적합한 최적화 방법은 어떻게 작동합니까?"

— Anona112

4

어떤 시나리오에서 어떤 최적화 방법을 사용해야하는지에 대한 명확한 증거는 일반적으로 없습니다. 다른 시나리오에서 이러한 방법의 동작에 대한 분석이 있었지만 결정적인 것은 없습니다. 그런 다음이 물건에 다이빙하려면 내가 추천 : http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf

적어도 약간의 대답을 제공하기 위해 종종 최적화 루틴의 구성이 실제 루틴보다 중요하다고 주장합니다.

또한 사용중인 기술을 확인하기 위해 논문을 살펴 보는 것이 좋습니다. 예를 들어 Alex Graves는 시퀀스 생성에 대한 대부분의 간행물에서 RMSprop를 사용했습니다.

— 소 코드
소스