어떤 상황에서 LSTM을 쌓는 것이 유리한지 궁금합니다.
어떤 상황에서 LSTM을 쌓는 것이 유리한지 궁금합니다.
답변:
에서 여러 LSTMs 스태킹의 장점은 무엇입니까? (나는 거기에 대한 답변 만 업데이트 할 것입니다) :
{1}에서 :
더 깊은 아키텍처가 얻는 추가 성능이 이론적으로 명확하지는 않지만 일부 RNN이 딥 RNN보다 얕은 RNN보다 더 잘 작동한다는 것이 경험적으로 관찰되었습니다. 특히 Sutskever et al (2014)은 4 층 딥 아키텍처가 인코더 디코더 프레임 워크에서 우수한 기계 번역 성능을 달성하는 데 중요했다고보고했습니다. Irsoy and Cardie (2014)는 또한 단일 계층 BI-RNN에서 여러 계층의 아키텍처로 이동 한 결과 개선 된 결과를보고합니다. 다른 많은 연구 결과는 계층 RNN 아키텍처를 사용하여 결과를보고하지만 1 계층 RNN과 명시 적으로 비교하지는 않습니다.
참고 문헌 :
- {1} 골드버그, 요 아브. "자연어 처리를위한 신경망 모델 입문서." 아티 프 Intell. Res. (JAIR) 57 (2016) : 345-420. https://scholar.google.com/scholar?cluster=3704132192758179278&hl=ko&as_sdt=0,5 ; http://u.cs.biu.ac.il/~yogo/nnlp.pdf
LSTM을 쌓는 것이 유리한 한 가지 상황은 시계열 데이터의 계층 적 표현을 배우려는 경우입니다. 적층 된 LSTM에서, 각각의 LSTM 층은 후속 LSTM 층에 대한 입력으로서 사용될 일련의 벡터를 출력한다. 이 숨겨진 계층 구조는 시계열 데이터를보다 복잡하게 표현하여 다양한 규모로 정보를 캡처합니다.
예를 들어, 누적 LSTM을 사용하면 걷기, 달리기, 자전거 타기, 계단 오르기 또는 휴식. EEG 데이터를 사용하여 스택 LSTM을 사용한 시계열 분류의 예는 다음 ipython 노트북을 살펴보십시오 .
시퀀스 대 시퀀스 모델 : 인코더 네트워크의 작업은 입력 시퀀스를 Seq2Seq 모델로 읽고 시퀀스에 대한 고정 차원 컨텍스트 벡터 C를 생성하는 것입니다. 이를 위해 인코더는 반복적 인 신경망 셀 (일반적으로 LSTM)을 사용하여 한 번에 하나씩 입력 토큰을 읽습니다. 셀의 최종 숨겨진 상태는 C가됩니다. 그러나 임의 길이의 시퀀스를 단일 고정 크기 벡터 (특히 변환과 같은 어려운 작업의 경우)로 압축하는 것이 어렵 기 때문에 인코더는 일반적으로 스택 LSTM 으로 구성됩니다. : 각 레이어의 출력이 다음 레이어의 입력 시퀀스 인 일련의 LSTM "레이어". 최종 레이어의 LSTM 숨겨진 상태는 컨텍스트 벡터로 사용됩니다.