통계 및 빅 데이터 adam

5

대부분의 Tensorflow 코드에서 Adam Optimizer가 일정한 학습 속도 1e-4(예 : 0.0001) 와 함께 사용되는 것을 보았습니다 . 코드는 일반적으로 다음과 같습니다. ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

53 neural-networks deep-learning gradient-descent tensorflow adam

1

확률 적 구배 하강의 Adam 방법은 어떻게 작동합니까?

신경망 훈련을위한 기본 그래디언트 디센트 알고리즘에 익숙합니다. 나는 Adam : ADAM : 확률 적 최적화를위한 방법을 제안하는 논문을 읽었다 . 나는 적어도 약간의 통찰력을 얻었지만 , 논문은 전체적으로 나에게 너무 높은 수준으로 보입니다. 예를 들어, 비용 함수 는 종종 많은 다른 함수들의 합이므로 그 값을 최적화하기 위해 방대한 양의 계산이 …

44 neural-networks optimization gradient-descent adam

3

Adam Optimizer가 하이퍼 매개 변수의 값에 대해 강력한 것으로 간주되는 이유는 무엇입니까?

저는 Deep Learning 의 Adam 최적화 프로그램에 대해 읽었으며 Bengio, Goodfellow 및 Courville 의 새 책 Deep Learning 에서 다음 문장 을 보았습니다. Adam은 일반적으로 학습 매개 변수를 제안 된 기본값에서 변경해야하지만 하이퍼 매개 변수를 선택하는 데 상당히 강력한 것으로 간주됩니다. 이것이 사실이라면 하이퍼 파라미터 검색은 딥 러닝 시스템의 통계 …

24 neural-networks deep-learning optimization hyperparameter adam

2

Adam Optimizer를 사용한 훈련 손실 및 반복에서의 스파이크 설명

i) SGD 및 ii) Adam Optimizer를 사용하여 신경망을 훈련하고 있습니다. 정상적인 SGD를 사용할 때 아래 (빨간색)와 같이 부드러운 훈련 손실 대 반복 곡선이 나타납니다. 그러나 Adam Optimizer를 사용할 때 훈련 손실 곡선에 약간의 급상승이 있습니다. 이 스파이크에 대한 설명은 무엇입니까? 모형 세부 사항 : 14 개의 입력 노드-> 2 개의 …

16 neural-networks deep-learning adam

1

딥 러닝 용 Adam 최적화 프로그램에 바이어스 보정 용어를 포함시키는 것이 중요한 이유는 무엇입니까?

저는 Deep Learning 의 Adam 최적화 프로그램에 대해 읽었으며 Begnio, Goodfellow 및 Courtville 의 새 책 Deep Learning 에서 다음 문장을 보았습니다. Adam은 원점에서의 초기화를 설명하기 위해 1 차 모멘트 (모멘텀 항) 및 (비 중심) 2 차 모멘트의 추정치에 대한 바이어스 보정을 포함합니다. 이러한 바이어스 보정 항을 포함하는 주된 이유는 …

15 machine-learning neural-networks optimization conv-neural-network adam

1

RMSProp 및 Adam 대 SGD

RMSProp, Adam 및 SGD가있는 네트워크를 사용하여 EMNIST 검증 세트에 대한 실험을 수행하고 있습니다. L2 정규화 (1e-05 페널티)뿐만 아니라 SGD (학습률 0.1) 및 탈락 (0.1 탈락 확률)으로 87 % 정확도를 달성하고 있습니다. RMSProp 및 Adam을 사용하여 동일한 정확한 구성과 0.001의 초기 학습 속도를 테스트 할 때 85 %의 정확도와 훨씬 덜 …

12 machine-learning optimization sgd adam

«adam» 태그된 질문