최근에 LSTM에 관심을 갖게되었으며 시간이 지남에 따라 가중치가 공유된다는 사실에 놀랐습니다.
시간이 지남에 따라 가중치를 공유하면 입력 시간 시퀀스가 가변 길이가 될 수 있습니다.
공유 가중치를 사용하면 훈련 할 매개 변수가 훨씬 적습니다.
내 이해에서 LSTM을 다른 학습 방법과 비교하는 이유는 데이터에 배우고 싶은 시간적 / 순차적 구조 / 의존성이 있다고 생각하기 때문입니다. 가변 길이 '럭셔리'를 희생하고 계산 시간이 길어지면 공유 가중치가없는 RNN / LSTM (즉, 매 단계마다 다른 가중치가 있음)이 더 잘 수행되지 않거나 내가 누락 된 것이 있습니까?