RMSProp, Adam 및 SGD가있는 네트워크를 사용하여 EMNIST 검증 세트에 대한 실험을 수행하고 있습니다. L2 정규화 (1e-05 페널티)뿐만 아니라 SGD (학습률 0.1) 및 탈락 (0.1 탈락 확률)으로 87 % 정확도를 달성하고 있습니다. RMSProp 및 Adam을 사용하여 동일한 정확한 구성과 0.001의 초기 학습 속도를 테스트 할 때 85 %의 정확도와 훨씬 덜 부드러운 훈련 곡선을 달성하고 있습니다. 나는이 행동을 설명하는 방법을 모른다. 훈련 곡선에서 매끄러움이 부족하고 정확도가 낮고 오류율이 높은 이유는 무엇입니까?
이것은 네트워크에 따라 다릅니다. 네트워크에 대한 세부 정보를 알려주시겠습니까? 또한 학습 곡선을 제공 할 수 있습니까?
—
Memming
이것은 5 개의 계층 (각 계층의 Dropout, Affine, ELU)을 가진 네트워크로, 150 개의 숨겨진 차원, 사용 된 ELU 활성화 기능, SGD에 대한 0.1 학습 속도, RMS 및 Adam에 대한 0.001 학습 속도, 1e를 사용한 L2 정규화와 같이 설정됩니다. -05 페널티, 탈락 0.1 배제 확률.
—
Alk
"정확한 동일한 구성 ... 초기 학습 속도 0.001"이라고 말하면 다른 학습 속도를 사용했거나 학습 속도가 같은 실험과 다른 학습 속도가있는 실험을 두 번 수행 했습니까? 어떤 매개 변수가 무엇을 기본값으로 사용하는지에 따라 실제 소프트웨어에 따라 다를 수 있습니다.
—
Wayne
그래서 저는 SGD에 0.1을, Adam과 RMSProp에 0.001을 사용했습니다. 내가 0.1 학습 속도로 Adam과 RMSProp를 실행했을 때 둘 다 60 %의 정확도로 잘못 수행했기 때문입니다. 또한 Adam의 논문에서 0.001이 권장되는 값입니다.
—
Alk
학습 곡선을 게시하고 테스트 또는 교육 데이터의 오류를 측정하는지 여부를 게시해야합니다.
—
Jakub Bartczuk