«lstm» 태그된 질문

Long Short Term Memory (LSTM)는 임의의 시간 동안 값을 기억할 수있는 반복 NN 블록을 포함하는 신경망 아키텍처입니다.

4
LSTM은 소실 구배 문제를 어떻게 방지합니까?
LSTM은 소실 구배 문제를 피하기 위해 특별히 고안되었습니다. 아래 다이어그램의 Greff 등의 셀 에서 루프에 해당하는 CEC (Constant Error Carousel)를 사용하여이를 수행해야합니다 . (출처 : deeplearning4j.org ) 그리고 그 부분은 일종의 항등 함수로 볼 수 있으므로 미분은 하나이고 기울기는 일정하게 유지됩니다. 내가 이해하지 못하는 것은 다른 활성화 기능으로 인해 사라지지 …

5
LSTM 단위 대 세포 이해
나는 한동안 LSTM을 공부하고있다. 모든 것이 어떻게 작동하는지 높은 수준에서 이해합니다. 그러나 Tensorflow를 사용하여 구현하려고하면 BasicLSTMCell 에 많은 단위 (즉 num_units) 매개 변수가 필요 하다는 것을 알았습니다 . 에서 이 LSTMs의 매우 철저한 설명, 내가 한 것을 수집 한 LSTM 장치는 다음 중 하나입니다 실제로 GRU 단위입니다. 그 매개 변수 …

1
훈련 손실이 점점 줄어 듭니다. 무슨 일이야?
훈련 손실이 줄어들었다가 다시 증가합니다. 매우 이상합니다. 교차 검증 손실은 훈련 손실을 추적합니다. 무슨 일이야? Keras에서 다음과 같이 두 개의 스택 LSTMS가 있습니다. model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 나는 100 Epochs를 위해 그것을 훈련시킵니다. model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 127803 …

3
여러 LSTM을 스태킹하면 어떤 이점이 있습니까?
딥 네트워크에서 여러 개의 LSTM을 나란히 쌓아 두는 이점은 무엇입니까? LSTM을 사용하여 일련의 입력을 단일 입력으로 나타냅니다. 그래서 일단 그 단일 표현을 가졌는데 왜 다시 통과해야합니까? 나는 자연어 생성 프로그램에서 이것을 보았 기 때문에 이것을 요구하고 있습니다.

1
주의 메커니즘은 정확히 무엇입니까?
주의 메커니즘은 지난 몇 년 동안 다양한 딥 러닝 논문에서 사용되었습니다. Open AI의 연구 책임자 인 Ilya Sutskever는 다음과 같이 열정적으로 찬사를 보냈습니다 : https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Purdue University의 Eugenio Culurciello는 RNN과 LSTM을 순전히주의 기반 신경망에 찬성하여 포기해야한다고 주장했습니다. https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 이 과장 보인다, 그러나 순전히 관심 기반 모델은 시퀀스 모델링 작업에 아주 …

3
Keras를 사용한 LSTM의 input_shape 매개 변수 이해
Keras 설명서에 "시퀀스 분류 용 스택 LSTM"(아래 코드 참조)이라는 설명 을 사용하려고하는데 input_shape내 데이터의 맥락 에서 매개 변수를 파악할 수 없습니다 . 최대 길이가 31 인 패딩 된 시퀀스에 정수로 인코딩 된 25 개의 가능한 문자 시퀀스의 행렬을 입력했습니다. 결과적으로 x_train모양의 (1085420, 31)의미가 (n_observations, sequence_length)있습니다. from keras.models import Sequential from …
20 lstm  keras  shape  dimensions 

4
피드백 RNN과 LSTM / GRU의 차이점
시계열 데이터에 적용 할 다른 RNN (Recurrent Neural Network) 아키텍처를 이해하려고하는데 RNN을 설명 할 때 자주 사용되는 다른 이름과 약간 혼동되고 있습니다. LSTM (Long Shortterm Memory) 및 GRU (Gated Recurrent Unit)의 구조는 본질적으로 피드백 루프가있는 RNN입니까?

2
LSTM에 가장 적합한 최적화 방법은 무엇입니까?
나는 theano를 사용하여 LSTM을 실험 해 왔으며 LSTM에 가장 적합한 최적화 방법 (SGD, Adagrad, Adadelta, RMSprop, Adam 등)이 궁금하십니까? 이 주제에 관한 연구 논문이 있습니까? 또한 대답은 LSTM을 사용하는 응용 프로그램 유형에 따라 달라 집니까? 그렇다면 텍스트 분류를 위해 LSTM을 사용하고 있습니다 (텍스트는 먼저 단어 벡터로 변환됩니다). 마지막으로, RNN에 대한 …

3
RNN / LSTM 네트워크의 가중치가 시간이 지남에 따라 공유되는 이유는 무엇입니까?
최근에 LSTM에 관심을 갖게되었으며 시간이 지남에 따라 가중치가 공유된다는 사실에 놀랐습니다. 시간이 지남에 따라 가중치를 공유하면 입력 시간 시퀀스가 ​​가변 길이가 될 수 있습니다. 공유 가중치를 사용하면 훈련 할 매개 변수가 훨씬 적습니다. 내 이해에서 LSTM을 다른 학습 방법과 비교하는 이유는 데이터에 배우고 싶은 시간적 / 순차적 구조 / 의존성이 …

3
시계열 벡터 예측을 위해 RNN (LSTM) 사용 (Theano)
나는 매우 간단한 문제가 있지만 그것을 해결할 수있는 올바른 도구를 찾을 수 없습니다. 길이가 같은 벡터 시퀀스가 ​​있습니다. 이제이 시퀀스의 기차 샘플에 대해 LSTM RNN을 학습 한 다음 여러 프라이밍 벡터를 기반으로 길이 의 새로운 벡터 시퀀스를 예측하려고합니다 .엔엔n 이 작업을 수행하는 간단한 구현을 찾을 수 없습니다. 내 기본 언어는 …

3
신경망에서 샘플, 시간 단계 및 기능의 차이
LSTM 신경망에서 다음 블로그를 살펴보고 있습니다. http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ 저자는 LSTM의 다른 구성을 위해 입력 벡터 X를 [샘플, 시간 단계, 특징]으로 재구성합니다. 저자는 쓴다 실제로, 문자의 순서는 별개의 특징의 1 시간 단계가 아닌 하나의 특징의 시간 단계이다. 우리는 네트워크에 더 많은 맥락을 주었지만 예상했던 것보다 더 많은 순서는 없습니다 이것은 무엇을 의미 …

1
RNN이 모델링 할 수있는 가능한 시퀀스 길이는 얼마입니까?
시계열 데이터 모델링을 위해 LSTM ( long short-term memory ) 버전의 RNN (Recurrent Neural Network) 을 사용하려고 합니다. 데이터의 시퀀스 길이가 길수록 네트워크의 복잡성이 증가합니다. 따라서 어느 정도의 시퀀스가 ​​좋은 정확도로 모델링 할 수 있을지 궁금합니다. 최신 방식을 구현하기가 어려운 비교적 간단한 LSTM 버전을 사용하고 싶습니다. 내 시계열의 각 관측치에는 …

1
RNN : BPTT 및 / 또는 업데이트 가중치 적용시기
음소 분류 에 관한 Graves의 2005 논문을 통해 시퀀스 레이블링에 RNN을 적용하는 방법을 이해하려고합니다 . 문제 요약 : 단일 문장의 (입력) 오디오 파일과 전문가 레이블이 지정된 시작 시간, 중지 시간 및 개별 음소에 대한 레이블 (무음, 각 오디오 파일의 각 샘플에는 음소 기호가 표시됩니다.) 이 논문의 핵심은 숨겨진 레이어에 LSTM …
15 lstm  rnn 

1
소규모 데이터 세트에서 LSTM의 과적 합 방지
저는 80 차원의 word2vec와 같은 표현을 사용하여 128 개의 숨겨진 단위를 가진 단일 계층 LSTM을 사용하여 감정 예측에 대한 15000 트윗을 모델링하고 있습니다. 1 에포크 후 하강 정확도 (임의의 = 38 %로 38 %)를 얻습니다. 훈련 정확도가 높아질수록 검증 정확도가 떨어지기 시작합니다. 따라서 정규화 방법을 생각하고 있습니다. 숨겨진 단위 수를 …

1
딥 네트워크의 LSTM 계층을 훈련시키는 방법
텍스트를 분류하기 위해 lstm 및 피드 포워드 네트워크를 사용하고 있습니다. 텍스트를 one-hot 벡터로 변환하고 각각을 lstm에 공급하여 단일 표현으로 요약 할 수 있습니다. 그런 다음 다른 네트워크에 공급합니다. 그러나 lstm을 어떻게 훈련합니까? 텍스트를 순서대로 분류하고 싶습니다. 훈련없이 텍스트를 제공해야합니까? 나는 구절을 분류기의 입력 레이어에 공급할 수있는 단일 항목으로 표현하고 싶습니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.