«gradient-descent» 태그된 질문

그라디언트 디센트는 1 차 반복 최적화 알고리즘입니다. 그래디언트 디센트를 사용하여 함수의 로컬 최소값을 찾으려면 현재 점에서 함수의 그래디언트 (또는 대략적인 그래디언트)의 음수에 비례하여 단계를 수행합니다. 확률 적 경사 하강의 경우 [sgd] 태그도 있습니다.

8
뉴턴의 방법이 기계 학습에 널리 사용되지 않는 이유는 무엇입니까?
이것은 잠시 동안 나를 괴롭 혔으며 온라인에서 만족스러운 답변을 찾을 수 없으므로 여기에 간다. 볼록 최적화에 대한 일련의 강의를 검토 한 후, Newton의 방법은 솔루션에 대한 보증을 제공 할 수 있고, 불변이고, 대부분 수렴하기 때문에, 전 세계적으로 최적의 솔루션을 찾기 위해 기울기 하강보다 훨씬 우수한 알고리즘 인 것 같습니다. 훨씬 …


6
폐쇄 형 수학 솔루션을 사용할 수있는 경우 선형 회귀에 그래디언트 디센트를 사용하는 이유는 무엇입니까?
기계 학습 과정을 온라인으로 진행하고 가설의 최적 값을 계산하기위한 그라디언트 디센트에 대해 배웠습니다. h(x) = B0 + B1X 아래 수식으로 값을 쉽게 찾을 수 있다면 왜 그라데이션 하강을 사용해야합니까? 이것은 똑바로 쉽게 보입니다. 그러나 GD는 값을 얻기 위해 여러 번 반복해야합니다. B1 = Correlation * (Std. Dev. of y/ Std. …

2
닫힌 형태 대 경사 하강에서의 회귀 모수 해결
Andrew Ng의 기계 학습 과정 에서 선형 회귀 및 로지스틱 회귀를 소개하고 경사 하강 및 뉴턴의 방법을 사용하여 모형 매개 변수를 맞추는 방법을 보여줍니다. 그래디언트 디센트는 기계 학습의 일부 응용 프로그램 (예 : 역 전파)에 유용 할 수 있지만 더 일반적인 경우 닫힌 형태의 매개 변수를 풀지 못하는 이유가 있습니다. …

3
신경망 연구자들이 신기원에 관심을 갖는 이유는 무엇입니까?
확률 적 경사 하강에서의 에포크 (epoch)는 데이터를 통한 단일 통과로 정의된다. 각 SGD 미니 배치에 샘플이 추출되고, 기울기가 계산되고 매개 변수가 업데이트됩니다. 에포크 설정에서 샘플은 교체없이 추출됩니다.kkk 그러나 이것은 불필요한 것 같습니다. 각 반복마다 전체 데이터 세트에서 랜덤 드로우 로 각 SGD 미니 배치를 그리지 않겠 습니까? 많은 수의 에포크 …

7
비용 함수 평가가 느린 경우 최적화
그라디언트 디센트 및 기타 여러 방법은 비용 함수에서 국소 최소값을 찾는 데 유용합니다. 수치 적이든 분석적 으로든 각 시점에서 비용 함수를 신속하게 평가할 수있을 때 효율적입니다. 이상한 상황 인 것 같습니다. 내 비용 함수의 각 평가는 비싸다. 지상 진실 표면에 대해 3D 표면을 최소화하는 일련의 매개 변수를 찾으려고합니다. 매개 변수를 …

5
지수 붕괴가있는 Adam 최적화 프로그램
대부분의 Tensorflow 코드에서 Adam Optimizer가 일정한 학습 속도 1e-4(예 : 0.0001) 와 함께 사용되는 것을 보았습니다 . 코드는 일반적으로 다음과 같습니다. ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …


4
운동량 기반 경사 하강과 Nesterov의 가속 경사 하강의 차이점은 무엇입니까?
운동량 기반 경사 하강은 다음과 같이 작동합니다. v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g 여기서 은 이전 가중치 업데이트이고 는 매개 변수 대한 현재 경사 , 은 학습 속도, 은 상수입니다.g p l r s e l f . m o m e n t u mmmmgggppplrlrlrself.momentumself.momentumself.momentum 피n 개의 전자 w= p + v = p …

1
GradientDescentOptimizer와 AdamOptimizer (TensorFlow)의 차이점은 무엇입니까?
XOR-Gate 모델링하는 TensorFlow 에서 간단한 MLP 를 작성했습니다 . 그래서 : input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] 다음을 생성해야합니다. output_data = [[0.], [1.], [1.], [0.]] 네트워크에는 입력 레이어, 숨겨진 레이어 및 각각 2, 5 및 1 뉴런이있는 출력 레이어가 있습니다. 현재 다음과 같은 교차 엔트로피가 있습니다. …

1
확률 적 구배 하강의 Adam 방법은 어떻게 작동합니까?
신경망 훈련을위한 기본 그래디언트 디센트 알고리즘에 익숙합니다. 나는 Adam : ADAM : 확률 적 최적화를위한 방법을 제안하는 논문을 읽었다 . 나는 적어도 약간의 통찰력을 얻었지만 , 논문은 전체적으로 나에게 너무 높은 수준으로 보입니다. 예를 들어, 비용 함수 는 종종 많은 다른 함수들의 합이므로 그 값을 최적화하기 위해 방대한 양의 계산이 …

1
신경망 : 체중 변화 운동량 및 체중 감소
Momentum 는 연속 반복에 따른 무게 변화의 변동을 줄이는 데 사용됩니다.αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), 여기서 는 오류 함수입니다. -가중치 벡터, 학습률.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 체중 감량 는 체중 변화에 불이익을줍니다 :λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 문제는 역 전파 동안 두 가지 …

4
직선 활성화 기능은 신경망에서 사라지는 기울기 문제를 어떻게 해결합니까?
신경 네트워크 의 배니싱 그래디언트 문제에 대한 해결책으로 여러 곳에서 정류 선형 유닛 (ReLU)이 칭찬했습니다 . 즉, max (0, x)를 활성화 함수로 사용합니다. 활성화가 양성일 때, 이것은 시그 모이 드 활성화 기능보다 낫다는 것이 명백하다. 그 파생은 큰 x에 대해 임의적으로 작은 값 대신에 항상 1이기 때문이다. 반면에, x가 0보다 …

2
확률 적 경사 하강을 누가 발명 했습니까?
Gradient descent 와 Stochastic gradient descent 의 역사를 이해하려고 합니다 . 그라데이션 하강에 발명 된 코시 1847에 부어 제너럴 메도 라 해상도 데 Systèmes의 디부 방정식 simultanées . pp. 536–538 자세한 내용은 여기를 참조 하십시오 . 그 이후로 기울기 하강 법은 계속 개발되어 왔으며 나는 그들의 역사에 익숙하지 않습니다. 특히 …

2
선형 회귀 모델의 계수를 찾으려면 경사 하강이 필요합니까?
Coursera 자료를 사용하여 기계 학습을 배우려고했습니다 . 이 강의에서 Andrew Ng는 기울기 하강 알고리즘을 사용하여 오차 함수 (비용 함수)를 최소화 할 선형 회귀 모델의 계수를 찾습니다. 선형 회귀의 경우 그라디언트 디센트가 필요합니까? 오차 함수를 분석적으로 차별화하고 계수를 풀기 위해 0으로 설정할 수 있습니다. 맞습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.