저는 Deep Learning 의 Adam 최적화 프로그램에 대해 읽었으며 Bengio, Goodfellow 및 Courville 의 새 책 Deep Learning 에서 다음 문장 을 보았습니다.
Adam은 일반적으로 학습 매개 변수를 제안 된 기본값에서 변경해야하지만 하이퍼 매개 변수를 선택하는 데 상당히 강력한 것으로 간주됩니다.
이것이 사실이라면 하이퍼 파라미터 검색은 딥 러닝 시스템의 통계 성능에서 (최소한의 경험으로는) 중요 할 수 있기 때문에 큰 문제입니다. 따라서 내 질문은 왜 Adam Robust가 중요한 매개 변수에 해당합니까? 특히 및 ?
나는 Adam 논문을 읽었으며 왜 그 매개 변수와 함께 작동하는지 또는 왜 강력한 지에 대한 설명을 제공하지 않습니다. 그들은 다른 곳에 그것을 정당화합니까?
또한 논문을 읽으면서 만 2 및 만 3 에서 매우 작은 곳에서 시도한 하이퍼 매개 변수의 수는 2x3 하이퍼 매개 변수에서만 작동하는 경우 철저한 실험적 연구가 될 수 있습니다. ?