seq2seq 모델링을위한 인코더-디코더 아키텍처를 소개 한 Cho 2014 논문을 연구하고 있습니다.
이 논문에서 그들은 입력이 주어진 입력의 확률 을 길이 의 입력 와 길이 출력 에 대한 손실 함수로 사용하는 것처럼 보입니다 (또는 음의 로그 가능성) :M y N
그러나 이것을 손실 함수로 사용하는 데 몇 가지 문제가 있다고 생각합니다.
- 훈련 중에 교사 강제를 가정하는 것 같습니다 (즉, 다음 반복에 대한 입력으로 위치에 대한 디코더의 추측을 사용하는 대신 알려진 토큰을 사용합니다).
- 긴 시퀀스에는 불이익을주지 않습니다. 확률은 출력의 에서 까지이므로 디코더가 더 긴 시퀀스를 생성하면 첫 번째 N 이후의 모든 것이 손실을 고려하지 않습니다.
- 모델이 초기 문자열 끝 토큰을 예측하는 경우 손실 함수는 여전히 단계를 요구 합니다. 이는 모델의 훈련되지 않은 "매니 폴드"를 기반으로 출력을 생성한다는 의미입니다. 부주의 한 것 같습니다.
이러한 우려 사항 중 유효한 것이 있습니까? 그렇다면 더 진보 된 손실 기능으로 발전한 적이 있습니까?