왜 우리는 신경망 이외의 것들에 알맞은 기울기가 아닌 일정한 학습 속도를 사용하지 않습니까?


14

딥 러닝 문학은 기울기 강하에서 일정하지 않은 학습 속도를 사용하는 영리한 속임수로 가득합니다. 지수 붕괴, RMSprop, Adagrad 등은 구현하기 쉽고 모든 딥 러닝 패키지에서 사용할 수 있지만 신경망 외부에는 존재하지 않는 것 같습니다. 이것에 대한 이유가 있습니까? 사람들이 단순히 신경 쓰지 않는다면 신경망 외부에서 신경 쓰지 않아도되는 이유가 있습니까?


2
라인 검색 또는 신뢰 영역 방법은 "일관되지 않은"학습 속도라고 생각합니다.
Haitao Du

2
NN과 독립적으로 개발 된 비 고정 구배 방법이 많이 있습니다. Barzilai-Borwein GD와 Nesterov GD가 대표적인 예입니다.
Sycorax는

@ Sycorax이지만 실제로는 NN 외부에서 매일 사용됩니까?
Tim

2
@Tim 나는 말할 수 없다. NN 외부에서 로컬 검색을 수행해야하는 경우 2 차 방법을 사용하는 것이 좋습니다. 그러나 백 포켓에 귀여운 트릭이있을 수있는 빠른 GD 방법에 대해 알게되어 기뻤습니다.
Sycorax는

1
GBM이 일정한 학습 속도를 사용하지 않는 사람들이 다소 놀랐다는 사실을 알게되었습니다. LightGBM에서 DART를 구현 한 것이 그 예입니다. 원본 논문은 점점 더 작은 LR을 사용하지 않지만 실제 구현은 기본적으로 수행합니다.
usεr11852는 Reinstate Monic이

답변:


16

면책 조항 : 신경망 외부의 최적화에 대한 경험이 많지 않으므로 대답이 명확하게 바이어스되지만 역할을하는 몇 가지 사항이 있습니다.

  • (딥) 신경 네트워크에는 많은 매개 변수가 있습니다. 여기에는 몇 가지 의미가 있습니다.

    첫째, 그것은 Hessian과 더 높은 파생물을 계산하는 것이 불가능 해지기 때문에 단순히 고차원 방법을 배제합니다. 다른 영역에서는 SGD를 조정하는 것보다 효과적인 방법 일 수 있습니다.

    둘째, SGD는 훌륭 하지만 비현실적으로 느린 경향이 있습니다. 이러한 개선 된 SGD 변형은 주로 빠른 교육을 가능하게하는 동시에 SGD의 멋진 속성 중 일부를 잃을 수 있습니다 . 다른 영역에서는 SGD 교육 시간에 병목 현상이 발생하지 않을 수 있으므로 속도를 높여 얻은 개선 사항은 무시할 수 있습니다.

  • 훈련 (깊은) 신경 네트워크는 비 볼록 최적화 이며 현장에서 볼록한 이완 결과를 잘 모릅니다. 다른 분야와 달리 신경망은 전 세계적으로 최적의 솔루션에 초점을 맞추지 않으므로 최적화 중에 손실 표면의 특성과 횡단면을 개선하기 위해 더 많은 노력을 기울입니다.

    다른 분야에서는, 일단 볼록한 문제로 정의되면, 최적화 알고리즘의 선택이 솔루션의 품질을 향상시킬 수 없기 때문에, 볼록 완화를 사용하고 세계적으로 최적의 솔루션을 얻는 것이 최적화 알고리즘 대신 관심의 중심에있을 수있다 .

이 답변이 가능한 모든 측면을 다루지는 않으며 다른 의견에 대해 궁금합니다.


그래서 당신은 기본적으로 다른 문제가 훨씬 간단하다고 말하고 있습니다. 트릭이 필요하지 않으며 바닐라 SGD로 충분합니까?
Tim

3
그것은 나의 메시지를 지나치게 단순화하고있다. 1) 일부 문제는 적응 형 SGD가 필요없는 고차 방법을 사용할 수 있습니다. 2) 일부 문제는 암달의 법칙으로 인해 SGD 개선으로 혜택을 얻을 수 없습니다. 3) 일부 문제는 볼록한 해결책을 제공 할 수 있으며 주된 어려움은 문제를 볼록한 자세로 취하는 것입니다. 이들 중 어느 것도 다른 문제가 딥 러닝보다 훨씬 간단하다고 말하지 않고 SGD 개선이 관심의 중심이 아닌 이유를 설명합니다.
Jan Kukacka

가능한 포인트 4 : 다른 방법을 사용하여 복잡한 그라데이션 하강 방법의 이점을 얻기에 충분히 복잡한 (고차원, 비선형, 비 볼록형) 경우 신경 네트워크라고 할 수 있습니다.
Nathaniel

1
@JanKukacka 알고 있습니다. 귀하의 답변이 간접적이므로 설명을 찾고있었습니다
Tim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.