답변:
나는 이것을 시도하고 같은 결과를 얻었다.
기울기 .abs
가 느리게 0에 접근하는 제곱 차와 달리 간단한 최적화 기가 최소값을 따라 가기가 더 어렵 기 때문에 절대 차의 기울기는 갑자기 반전되는 고정 된 크기를 가지므로 옵티마이 저가 진동하는 경향이 있습니다. 최소 점. 기본 그라디언트 디센트는 그라디언트의 크기와 학습 속도에 매우 민감합니다.이 단계는 기본적으로 단계 크기에 대한 그라디언트의 승수입니다.
가장 간단한 해결책은 학습 속도를 낮추는 것입니다.
optimizer = tf.train.GradientDescentOptimizer(0.5)
에
optimizer = tf.train.GradientDescentOptimizer(0.05)
또한 다른 옵티 마이저와 함께 플레이하십시오. 일부는 .abs
손실을보다 잘 처리 할 수 있습니다 .