나는 한동안 LSTM을 공부하고있다. 모든 것이 어떻게 작동하는지 높은 수준에서 이해합니다. 그러나 Tensorflow를 사용하여 구현하려고하면 BasicLSTMCell 에 많은 단위 (즉 num_units) 매개 변수가 필요 하다는 것을 알았습니다 . 에서 이 LSTMs의 매우 철저한 설명, 내가 한 것을 수집 한 LSTM 장치는 다음 중 하나입니다 실제로 GRU 단위입니다. 그 매개 변수 …
딥 네트워크에서 여러 개의 LSTM을 나란히 쌓아 두는 이점은 무엇입니까? LSTM을 사용하여 일련의 입력을 단일 입력으로 나타냅니다. 그래서 일단 그 단일 표현을 가졌는데 왜 다시 통과해야합니까? 나는 자연어 생성 프로그램에서 이것을 보았 기 때문에 이것을 요구하고 있습니다.
주의 메커니즘은 지난 몇 년 동안 다양한 딥 러닝 논문에서 사용되었습니다. Open AI의 연구 책임자 인 Ilya Sutskever는 다음과 같이 열정적으로 찬사를 보냈습니다 : https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Purdue University의 Eugenio Culurciello는 RNN과 LSTM을 순전히주의 기반 신경망에 찬성하여 포기해야한다고 주장했습니다. https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 이 과장 보인다, 그러나 순전히 관심 기반 모델은 시퀀스 모델링 작업에 아주 …
이 질문에는 이미 답변이 있습니다 . 비용 함수의 변화는 어떻게 긍정적일 수 있습니까? (1 답변) 신경망이 학습하지 않으면 어떻게해야합니까? (5 답변) 지난달 휴무 . 4 가지 유형의 시퀀스를 분류하기 위해 모델 (Recurrent Neural Network)을 훈련하고 있습니다. 훈련을 진행할 때 훈련 배치에서 샘플의 90 % 이상을 올바르게 분류 할 때까지 훈련 …
시계열 데이터에 적용 할 다른 RNN (Recurrent Neural Network) 아키텍처를 이해하려고하는데 RNN을 설명 할 때 자주 사용되는 다른 이름과 약간 혼동되고 있습니다. LSTM (Long Shortterm Memory) 및 GRU (Gated Recurrent Unit)의 구조는 본질적으로 피드백 루프가있는 RNN입니까?
최근에 LSTM에 관심을 갖게되었으며 시간이 지남에 따라 가중치가 공유된다는 사실에 놀랐습니다. 시간이 지남에 따라 가중치를 공유하면 입력 시간 시퀀스가 가변 길이가 될 수 있습니다. 공유 가중치를 사용하면 훈련 할 매개 변수가 훨씬 적습니다. 내 이해에서 LSTM을 다른 학습 방법과 비교하는 이유는 데이터에 배우고 싶은 시간적 / 순차적 구조 / 의존성이 …
LSTM 신경망에서 다음 블로그를 살펴보고 있습니다. http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ 저자는 LSTM의 다른 구성을 위해 입력 벡터 X를 [샘플, 시간 단계, 특징]으로 재구성합니다. 저자는 쓴다 실제로, 문자의 순서는 별개의 특징의 1 시간 단계가 아닌 하나의 특징의 시간 단계이다. 우리는 네트워크에 더 많은 맥락을 주었지만 예상했던 것보다 더 많은 순서는 없습니다 이것은 무엇을 의미 …
광학 문자 인식 (OCR) 프로젝트를 수행하려고합니다. 몇 가지 연구를 한 후에 흥미로운 것으로 보이는 아키텍처 인 CNN + RNN + CTC를 발견했습니다. CNN (Convoluted Neural Network) 및 RNN (Recurrent Neural Network)에 익숙하지만 CTC (Connectionistor Temporal Classification) 란 무엇입니까? 평신도의 용어로 설명하고 싶습니다.
음소 분류 에 관한 Graves의 2005 논문을 통해 시퀀스 레이블링에 RNN을 적용하는 방법을 이해하려고합니다 . 문제 요약 : 단일 문장의 (입력) 오디오 파일과 전문가 레이블이 지정된 시작 시간, 중지 시간 및 개별 음소에 대한 레이블 (무음, 각 오디오 파일의 각 샘플에는 음소 기호가 표시됩니다.) 이 논문의 핵심은 숨겨진 레이어에 LSTM …
반복적 인 신경망에서는 일반적으로 여러 시간 단계를 통해 전파되고 네트워크를 "롤링 해제"한 다음 입력 시퀀스를 통해 전파됩니다. 시퀀스에서 각 개별 단계 후에 가중치를 업데이트하지 않는 이유는 무엇입니까? (잘림 길이 1을 사용하는 것과 동일하므로 롤링 할 것이 없습니다.) 이것은 사라지는 기울기 문제를 완전히 제거하고 알고리즘을 크게 단순화하며 아마도 현지 최소값에 걸릴 …
RNN (특히 LSTM 단위)의 작동 방식에 대한 기본 지식이 있습니다. LSTM 장치의 구조, 즉 셀과 몇 개의 게이트로 구성된 값의 흐름을 조절하는 그림 아이디어가 있습니다. 그러나 LSTM이 기존 RNN 인 시간 전파를 통해 훈련하는 동안 발생하는 "배니싱 및 폭발 그라디언트"문제를 해결하는 방법을 완전히 이해하지 못했습니다. 나는 수학을 완전히 이해하기 위해 …
각각에 가장 적합한 순차적 입력 문제는 무엇입니까? 입력 차원이 더 적합한 항목을 결정합니까? "더 긴 메모리"가 필요한 문제는 LSTM RNN에 더 적합한 반면, 주기적 입력 패턴 (주식 시장, 날씨)의 문제는 HMM에 의해보다 쉽게 해결됩니까? 겹치는 부분이 많은 것 같습니다. 둘 사이에 어떤 미묘한 차이점이 있는지 궁금합니다.