보인다 적응 모멘트 추정 (아담) 최적화 거의 항상 (더 빠르고 안정적으로 글로벌 최소 도달) 신경망을 훈련 비용 함수를 최소화 할 때 잘 작동합니다.
왜 항상 아담을 사용하지 않습니까? RMSProp 또는 모멘텀 옵티 마이저를 사용하는 것이 왜 귀찮습니까?
1
두 진술을 뒷받침 할 수있는 엄격하고 공식적인 방법이 없다고 생각합니다. 오류 표면을 알 수 없으므로 모두 순전히 경험적입니다. 경험적으로 볼 때 경험적으로 볼 때 ADAM은 결점이없는 (통합은 모노톤이 아님) 다른 사람이 실패하는 경우 (인스턴스 세그먼테이션) 잘 수행합니다
—
Alex
Adam은 더 빨리 수렴합니다. SGD는 느리지 만 일반화됩니다. 결국 모든 것은 특정 상황에 달려 있습니다.
—
agcala