항상 ADAM 최적화 기술을 사용하지 않는 이유는 무엇입니까?


13

보인다 적응 모멘트 추정 (아담) 최적화 거의 항상 (더 빠르고 안정적으로 글로벌 최소 도달) 신경망을 훈련 비용 함수를 최소화 할 때 잘 작동합니다.

왜 항상 아담을 사용하지 않습니까? RMSProp 또는 모멘텀 옵티 마이저를 사용하는 것이 왜 귀찮습니까?


1
두 진술을 뒷받침 할 수있는 엄격하고 공식적인 방법이 없다고 생각합니다. 오류 표면을 알 수 없으므로 모두 순전히 경험적입니다. 경험적으로 볼 때 경험적으로 볼 때 ADAM은 결점이없는 (통합은 모노톤이 아님) 다른 사람이 실패하는 경우 (인스턴스 세그먼테이션) 잘 수행합니다
Alex

2
Adam은 더 빨리 수렴합니다. SGD는 느리지 만 일반화됩니다. 결국 모든 것은 특정 상황에 달려 있습니다.
agcala

답변:



5

또한 살펴 봐야합니다 다른 경사 하강 옵티 마이저를 비교하는 게시물을 합니다. 아래에서 볼 수 있듯이 Adam은 많은 작업이 더 잘 수렴되는 일부 작업에 가장 적합한 최적화 방법은 아닙니다.


기록을 위해서만 : 링크 된 기사에서 그들은 ADAM의 몇 가지 결함을 언급하고 AMSGrad를 해결책으로 제시합니다. 그러나 그들은 AMSGrad가 실무에서 ADAM보다 성능이 뛰어나다는 것이 결론을 내릴 수 없다고 결론을 내렸다.
Lus
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.