항상 ADAM 최적화 기술을 사용하지 않는 이유는 무엇입니까?

13

보인다 적응 모멘트 추정 (아담) 최적화 거의 항상 (더 빠르고 안정적으로 글로벌 최소 도달) 신경망을 훈련 비용 함수를 최소화 할 때 잘 작동합니다.

왜 항상 아담을 사용하지 않습니까? RMSProp 또는 모멘텀 옵티 마이저를 사용하는 것이 왜 귀찮습니까?

neural-network optimization

— 파이 스퀘어
소스

1

두 진술을 뒷받침 할 수있는 엄격하고 공식적인 방법이 없다고 생각합니다. 오류 표면을 알 수 없으므로 모두 순전히 경험적입니다. 경험적으로 볼 때 경험적으로 볼 때 ADAM은 결점이없는 (통합은 모노톤이 아님) 다른 사람이 실패하는 경우 (인스턴스 세그먼테이션) 잘 수행합니다

— Alex

2

Adam은 더 빨리 수렴합니다. SGD는 느리지 만 일반화됩니다. 결국 모든 것은 특정 상황에 달려 있습니다.

— agcala

13

다음은 SGD가 ADAM보다 더 일반화 된 어댑터라고 주장하는 기사를 검토하는 블로그 게시물입니다. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

모든 방법에는 약점이 있기 때문에 하나 이상의 방법 (앙상블)을 사용하는 경우가 종종 있습니다.

— 크리스토퍼 클라우스
소스

5

또한 살펴 봐야합니다 다른 경사 하강 옵티 마이저를 비교하는 이 게시물을 합니다. 아래에서 볼 수 있듯이 Adam은 많은 작업이 더 잘 수렴되는 일부 작업에 가장 적합한 최적화 방법은 아닙니다.

기록을 위해서만 : 링크 된 기사에서 그들은 ADAM의 몇 가지 결함을 언급하고 AMSGrad를 해결책으로 제시합니다. 그러나 그들은 AMSGrad가 실무에서 ADAM보다 성능이 뛰어나다는 것이 결론을 내릴 수 없다고 결론을 내렸다.

— Lus