선형 회귀 분석에서 경사 하강에 대한 최적 학습 속도 결정


9

경사 하강에 대한 최적의 학습률을 어떻게 결정할 수 있습니까? 비용 함수가 이전 반복보다 더 큰 값을 반환하면 알고리즘이 자동으로 조정할 수 있다고 생각합니다 (알고리즘이 수렴하지 않음). 어떻게 새로운 값을 가져야할지 확실하지 않습니다.


willamette.edu/~gorr/classes/cs449/momrate.html 국부적 인 속도 적응 형태로 어닐링 시도 : µ (t) = µ (0) / (1 + t / T); 에러 부호가 바뀌면 t를 증가시킨다.
Chris

답변:


2

(몇 년 후) Barzilai-Borwein 단계 크기 방법을 찾아보십시오. onmyphd.com 에는 멋진 3 페이지 설명이 있습니다. 저자는 말합니다

이 방법은 큰 치수 문제에서도 잘 작동합니다.

그러나 2d Rosenbrock 함수의 애플릿에는 끔찍합니다. 누군가 Barzilai-Borwein을 사용하는 경우 의견을 말하십시오.


1

당신은 올바른 길을 가고 있습니다. 일반적인 접근 방식은 내리막 길을 성공적으로 밟을 때마다 계단 크기를 두 배로 늘리고 실수로 "너무 멀리"갈 때 계단 크기를 절반으로 줄이는 것입니다. 물론 2 이외의 다른 요소로 확장 할 수 있지만 일반적으로 큰 차이는 없습니다.

보다 정교한 최적화 방법은 수렴 속도를 상당히 높일 수 있지만 어떤 이유로 자신의 업데이트를 롤링해야하는 경우 위의 내용은 매우 간단하고 종종 충분합니다.


나는 2를 곱하거나 나누는 것을 생각하고있었습니다. 그러나 성공적인 단계가 발생할 때마다 2를 곱하면 훨씬 더 많은 반복이 발생할 것으로 우려됩니다. 경사가 얼마나 가파른 지에 대한 정보를 제공하기 때문에 그라디언트를 사용하는 방법이 있기를 바랐습니다.
Valentin Radu

그라디언트에서 그러한 정보를 얻을 수 있다는 것은 그럴듯 해 보이지 않습니다. 그라디언트만으로는 최적에서 얼마나 멀리 떨어져 있는지, 더 중요한 점은 알려주지 않습니다. 그래디언트 자체는 언제 변경됩니까?엑스변화. 이를 위해서는 Hessian이 필요합니다.
sjm.majewski

기본 고정 프로세스를 다루는 경우 최대 학습 속도는 상관 관계 매트릭스의 스펙트럼에 의해 좌우됩니다.
bright-star
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.