나는 약간의 연구를 위해 간단한 신경망을 작성하기 위해 tensorflow를 사용하고 있으며 훈련하는 동안 'nan'무게에 많은 문제가있었습니다. 최적화 프로그램 변경, 손실 변경, 데이터 크기 등과 같은 다양한 솔루션을 시도했지만 아무 소용이 없습니다. 마지막으로, 학습률의 변화가 나의 체중에 믿을 수없는 차이를 가져 왔다는 것을 알았습니다.
학습 속도 .001 (정말 보수적이라고 생각)을 사용하면 최소화 기능이 실제로 손실을 기하 급수적으로 증가시킵니다. 하나의 에포크 (epoch) 후에 손실은 수천의 숫자에서 1 조로, 그리고 무한대 ( 'nan')로 점프 할 수 있습니다. 학습 속도를 .0001로 낮추면 모든 것이 잘 작동했습니다.
1) 왜 단일 차수가 그러한 영향을 미칩니 까?
2) 최소화 기능이 문자 기능과 반대되는 기능을 수행하고 손실을 최대화하는 이유는 무엇입니까? 그것은 학습 속도에 관계없이 발생해서는 안되는 것 같습니다.