LSTM에서 슬라이딩 윈도우가 과적 합을 유발합니까?


15

슬라이딩 윈도우 방식으로 훈련하면 LSTM을 과도하게 맞출 수 있습니까? 사람들이 왜 LSTM에 그것을 사용하지 않는 것 같습니까?

간단한 예를 들어, 문자 순서를 예측해야한다고 가정하십시오.

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

다음 미니 배치로 LSTM을 계속 훈련하면 나쁘거나 더 좋습니까?

A B C D E F G H I J K L M N, backprop, erase the cell

B C D E F G H I J K L M N O, backprop, erase the cell

 .... and so on, shifting by 1 every time?

이전에는 항상 다음과 같이 교육했습니다.

A B C D E F G H I J K L M N,  backprop, erase the cell

O P Q R S T U V W X Y Z,  backprop, erase the cell

1 씩 이동하는 대신 2 개의 항목 등으로 창을 슬라이드하는 것이 더 좋습니까? 그 의미는 무엇입니까 (정밀도 / 과적 합)?


또한 Feed-forward 네트워크에서 슬라이딩 윈도우 방식을 사용한다면 과적 합이 발생합니까? 네트워크가 동일한 정보 영역에 매우 오랫동안 노출되어 있기 때문에 예라고 가정합니다. 예를 들어 E F G H I J K장시간 노출됩니다 .


편집하다:

훈련 배치 사이에서 셀 상태가 지워 지므로 LSTM은이 시점에서 "해머 투 헤드"를 갖습니다. OPQRSTUVWXYZ 이전의 내용 을 기억할 수 없습니다 . 이것은 LSTM이 "O"가 "M"을 따른다는 것을 알 수 없다는 것을 의미합니다.

그래서 나는 (따라서 나의 전체 질문), 중간에 (중첩) 배치를주지 말아야한다고 생각했다. 궁극적으로 이는 LSTM의 슬라이딩 윈도우를 의미합니다.


답변을 수락 한 후 찾은 유용한 정보는 다음과 같습니다.

여기에서

영어 번역의 첫 단어는 아마도 원문의 첫 단어와 밀접한 관련이 있습니다. 그러나 이는 디코더가 50 단계 전의 정보를 고려해야한다는 것을 의미하며 정보는 어떻게 든 벡터로 인코딩되어야합니다. 재발 신경망은 이러한 장거리 의존성을 다루는 데 문제가있는 것으로 알려져 있습니다. 이론적으로 LSTM과 같은 아키텍처는이를 처리 할 수 ​​있어야하지만 실제로는 장거리 종속성이 여전히 문제가됩니다.

예를 들어, 연구원들은 소스 시퀀스를 반대로 바꾸면 (엔코더에 역으로 공급) 디코더에서 인코더의 관련 부분으로가는 경로가 짧아 지므로 훨씬 더 나은 결과를 얻을 수 있습니다. 마찬가지로 입력 시퀀스를 두 번 먹이면 네트워크가 더 잘 암기하는 데 도움이되는 것으로 보입니다. 예를 들어 한 교육 예제가 "John goes home"인 경우 "John이 home home home"을 네트워크에 하나의 입력으로 제공합니다.

답변을 수락 한 후 편집하십시오.

몇 달 후, 데이터를 더 잘 사용하기 때문에 슬라이딩 윈도우 접근 방식을 사용하는 경향이 더 큽니다. 그러나이 경우 ABCDEFGHIJKLMNO 직후 BCDEFGHIJKLMNO를 훈련시키고 싶지 않을 것입니다. 대신, 모든 정보를 LSTM 에 점진적으로 균일하게 "브러시"하기 위해 예제를 섞습니다. ABCDEFGHIJKLMNO 등 뒤에 HIJKLMNOPQRSTU를 부여하십시오. 이는 치명적인 잊음과 직접 관련이 있습니다. 항상 그렇듯이 Validation and Test 세트를 면밀히 모니터링하고 오류가 꾸준히 증가하는 것을 보자 마자 멈추십시오.

또한 합성 그라디언트를 사용하여 "해머 투 헤드"문제를 개선 할 수 있습니다. 여기에서 이점을보십시오 : (링크 된 답변은 긴 시퀀스의 이점에 대해 설명합니다) /datascience//a/32425/43077

답변:


9

@Imran의 이전 답변은 정확하지만주의해야 할 점이 있습니다. 사람들이 LSTM에 슬라이딩 윈도우를 공급하는 응용 프로그램이 있습니다. 예를 들어 여기 에서지도 학습을 감독 학습 문제로 프레임 화합니다.

4(미디엄+2+)미디엄

LSTM은 고정 크기 입력이 필요하지 않으므로 최적의 전환 확인 번호를 스스로 찾을 수 있습니다. 그러나 사전 자기 회귀 분석을 수행 한 후 예를 들어 현재 시간 단계가 이전 10 단계와 가장 관련이 있고 과거 11 단계 또는 시간 단계와 더 이상 관련이 없다고 결정한 경우 고정 길이 시퀀스를 공급하여 훈련 시간을 절약하십시오. 그러나 이러한 종류의 LSTM의 목적을 상실합니다.

데이터가 LSTM에 비해 충분하지 않은 경우 자동 회귀 모델과 같이 훨씬 간단한 것을 시도하고 진행하는 것이 좋습니다.

편집 (의견에 대한 답변) :

겹치는 시퀀스는 특히 시퀀스가 ​​매우 긴 경우 입력으로 사용됩니다 (물론 '긴'은 상대적 임). LSTM이 긴 시퀀스의 경우 바닐라 RNN보다 낫지 만 시퀀스가 ​​매우 긴 경우 시퀀스의 시작부터 시간 단계를 기억하는 데 여전히 어려움이있을 수 있습니다. 이로 인해 양방향 LSTM과 같은 방식으로 시퀀스를 앞뒤로 읽으며 각 입력 시퀀스의 시작과 끝에 대한 네트워크 노출을 개선합니다. 중복 시퀀스가 ​​더 직관적이라고 주장하지만 원칙은 중복 시퀀스와 동일합니다.


감사합니다. II는 LSTM이 겹치지 않는 배치로 훈련되지 않아야하는지 여부를 여전히 알지 못합니다. 당신이 좋아하는 게시물은 귀중한 게시물이지만 피드 포워드 네트에만 설명되어 있으며 훈련 중 LSTM의 겹치는 미니 배치의 이점 / 위험은 다루지 않습니다. @Imran은 또한 중첩 미니 배치에 대한 "처방전 방지"에 대해 논의하지 않았습니다.
Kari

댓글을 포함하도록 질문을 편집했습니다.
Kari

많은 훌륭한 정보!
Imran

@Kari 나는 내 대답을 수정했습니다. 도움이 되나요?
StatsSorceress

5

LSTM에는 슬라이딩 입력 창이 필요하지 않습니다. 그들은 과거에 본 것을 기억할 수 있으며, 훈련 예제를 한 번에 하나씩 먹이면 스스로 기억할 입력의 크기를 선택할 것입니다.

LSTM은 이미 과적 합되기 쉬우 며 슬라이딩 윈도우로 많은 양의 중복 데이터를 공급하면 과잉 적합 할 수 있습니다.

반면, Feedforward Neural Networks를 사용한 시계열 예측에는 슬라이딩 윈도우가 필요합니다. FNN에는 고정 크기 입력이 필요하고 메모리가 없기 때문에 시계열 데이터를 공급하는 가장 자연스러운 방법입니다.

FNN의 과적 합 여부는 아키텍처와 데이터에 따라 다르지만 모든 표준 정규화 기술이 적용됩니다. 예를 들어 더 작은 네트워크, L2 정규화, 드롭 아웃 등을 선택할 수 있습니다.


감사! 나는 훈련 배치들 사이에서 셀 상태가 소거된다고 주장 할 것이다. 그래서 LSTM은이 시점에서 "해머 투 헤드"를 가질 것이다. OPQRSTUVWXYZ 이전의 내용을 기억할 수 없습니다. 이것은 LSTM이 "O"가 "M"을 따른다는 것을 알 수 없다는 것을 의미합니다. 그래서 중간에 (중첩) 배치를 제공하지 않는 이유는 무엇입니까?이 경우 여러 개의 겹치는 미니 배치를 사용하지 않는 이유는 무엇입니까?
Kari

궁극적으로 이는 LSTM의 슬라이딩 윈도우를 의미합니다
Kari

트레이닝 배치들 사이에서 셀 상태를 소거 할 필요는 없지만, 역전 파는 더 이상 가능하지 않다.
Jan van der Vegt

나는 그것을 시도했지만-학습 속도가 0조차도 잘못된 셀 상태가 훈련 중에 "레거시"로 재사용되어 오류가 조금씩 위아래로 점프했습니다. 이 방법으로 6 개 이상의 레이어를 쌓을 수 없었습니다. 너무 혼란스럽고 수렴하지 않았습니다. 그러나 각 Backprop 후 셀 상태를 0으로 재설정하면 각 레이어에 64 개의 뉴런으로 150 개의 레이어를 쌓고 0.001 학습 속도 및 0.9의 운동량으로 훈련 할 수있었습니다 (LayerNormalization을 사용하고 있기 때문에 학습 속도가 너무 큰 이유입니다)
Kari

1
즉, "레거시 셀 상태"를 사용하면 LSTM이 불안정하고 신뢰할 수 없게됩니다 . 전체 범위에서 수정되지 않은 마지막 셀 상태 (이전 미니 배치) 를 기반으로 새로운 미니 배치 작업을 시작합니다 . 따라서, 세포 상태를 지우면이 근본적인 결함은 제거되지만 LSTM 경험 기억 상실증
Kari
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.