1
왜 우리는 신경망 이외의 것들에 알맞은 기울기가 아닌 일정한 학습 속도를 사용하지 않습니까?
딥 러닝 문학은 기울기 강하에서 일정하지 않은 학습 속도를 사용하는 영리한 속임수로 가득합니다. 지수 붕괴, RMSprop, Adagrad 등은 구현하기 쉽고 모든 딥 러닝 패키지에서 사용할 수 있지만 신경망 외부에는 존재하지 않는 것 같습니다. 이것에 대한 이유가 있습니까? 사람들이 단순히 신경 쓰지 않는다면 신경망 외부에서 신경 쓰지 않아도되는 이유가 있습니까?