나는 잠시 동안 신경망을 사용하고 있습니다. 그러나 내가 끊임없이 어려움을 겪고있는 한 가지는 네트워크 교육을위한 최적화 프로그램을 선택하는 것입니다 (backprop 사용). 내가 일반적으로하는 것은 하나 (예 : 표준 SGD)로 시작한 다음 다른 사람들을 거의 임의로 시도합니다. 좋은 옵티 마이저를 찾는 더 나은 (그리고 덜 무작위적인) 접근법이 있는지 궁금합니다.
- SGD (운동량 유무)
- 에이다 델타
- 아다 그라드
- RMSProp
- 아담
특히, 훈련 데이터에 약간의 속성 (예 : 드문 드문)이 있기 때문에 하나를 선택하는 것에 대한 이론적 근거가 있다면 관심이 있습니다. 또한 컨볼 루션 네트워크 대 피드 포워드 네트워크 또는 분류 대 회귀를 학습 할 때 특정 도메인에서 다른 옵티마이 저가 다른 도메인보다 더 잘 작동한다고 생각합니다.
옵티 마이저를 선택하는 방법에 대한 전략 및 / 또는 직관을 개발 한 사람이 있다면이를 듣고 싶습니다. 또한, 서로를 선택하는 것에 대한 이론적 정당성을 제공하는 작업이 있다면 더 좋습니다.