통계 및 빅 데이터 sgd

3

i = 1 , … , m에 대한 훈련 세트 ( x( 나는 ), y( 나는 ))(x(i),y(i))(x_{(i)}, y_{(i)}) 가 있다고 가정 합니다. 또한 훈련 세트에서 일종의 감독 학습 알고리즘을 실행한다고 가정하십시오. 가설은 h θ ( x ( i ) ) = θ 0 + θ 1 x ( i ) …

101 optimization gradient-descent sgd

2

확률 적 경사 하강을 누가 발명 했습니까?

Gradient descent 와 Stochastic gradient descent 의 역사를 이해하려고 합니다 . 그라데이션 하강에 발명 된 코시 1847에 부어 제너럴 메도 라 해상도 데 Systèmes의 디부 방정식 simultanées . pp. 536–538 자세한 내용은 여기를 참조 하십시오 . 그 이후로 기울기 하강 법은 계속 개발되어 왔으며 나는 그들의 역사에 익숙하지 않습니다. 특히 …

36 references gradient-descent history sgd

6

볼록한 문제의 경우 SG (Stochastic Gradient Descent)의 그래디언트가 항상 전역 극단 값을 가리 킵니까?

볼록한 비용 함수가 주어지면 최적화를 위해 SGD를 사용하여 최적화 프로세스 중에 특정 지점에서 그라디언트 (벡터)를 갖게됩니다. 내 질문은 볼록한 점을 감안할 때 그라디언트가 함수가 가장 빠르게 증가 / 감소하는 방향만을 가리 키거나 그라디언트는 항상 비용 함수의 최적 / 극한 점을 가리 킵 니까? 전자는 지역 개념이고, 후자는 글로벌 개념입니다. SGD는 …

25 neural-networks optimization gradient-descent sgd convex

3

배치 크기는 SGD의 수렴에 어떤 영향을 줍니까?

많은 논의에서 비슷한 결론을 보았습니다. 미니 배치 크기가 커질수록 SGD의 수렴이 실제로 더 어려워지고 악화됩니다. 이 논문 과 이 답변을 . 또한 초기 단계에서 소규모 학습 속도 또는 배치 크기와 같은 트릭을 사용하여 배치 크기가 큰 문제를 해결하는 사람들에 대해 들었습니다. 그러나 미니 배치의 평균 손실이 데이터 분포에 대한 예상 …

18 machine-learning neural-networks optimization gradient-descent sgd

1

확률 적 경사 하강은 어떻게 표준 경사 하강에 비해 시간을 절약 할 수 있습니까?

표준 그라디언트 디센트는 전체 교육 데이터 세트에 대한 그라디언트를 계산합니다. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 사전 정의 된 에포크 수에 대해 먼저 매개 변수 벡터 매개 변수를 사용하여 전체 데이터 세트에 대한 손실 함수의 기울기 벡터 weights_grad를 계산합니다. 대조적으로 …

15 machine-learning optimization gradient-descent computational-statistics sgd

4

안장에 어떻게 갇힐 수 있습니까?

나는 현재 미니 배치 그라디언트 디센트가 안장 점에 갇히는 방법에 약간 당황합니다. 해결책은 너무 사소한 것일 수도 있습니다. 사용자는 각 에포크 새로운 샘플을 얻고, 비용 함수는 각 배치에 대한 정적 인 그래서, 새로운 배치에 기초하여 새로운 에러를 산출하는 기울기는 각 미니 일괄 변하지 .. 이에 따라한다는 것을 의미 이 해야 …

14 gradient-descent sgd

1

RMSProp 및 Adam 대 SGD

RMSProp, Adam 및 SGD가있는 네트워크를 사용하여 EMNIST 검증 세트에 대한 실험을 수행하고 있습니다. L2 정규화 (1e-05 페널티)뿐만 아니라 SGD (학습률 0.1) 및 탈락 (0.1 탈락 확률)으로 87 % 정확도를 달성하고 있습니다. RMSProp 및 Adam을 사용하여 동일한 정확한 구성과 0.001의 초기 학습 속도를 테스트 할 때 85 %의 정확도와 훨씬 덜 …

12 machine-learning optimization sgd adam

1

딥 생성 모델의 VAE와 확률 적 역 전파의 차이점은 무엇입니까?

자동 인코딩 변형 베이 와 딥 생성 모델에 대한 확률 적 역 전파 의 차이점은 무엇입니까 ? 두 방법의 추론이 동일한 결과를 초래합니까? 두 저자 그룹이 서로 인용하고 있음에도 불구하고 두 방법 사이의 명시 적 비교를 알지 못합니다.

10 deep-learning inference latent-variable variational-bayes sgd

«sgd» 태그된 질문