딥 러닝 문학은 기울기 강하에서 일정하지 않은 학습 속도를 사용하는 영리한 속임수로 가득합니다. 지수 붕괴, RMSprop, Adagrad 등은 구현하기 쉽고 모든 딥 러닝 패키지에서 사용할 수 있지만 신경망 외부에는 존재하지 않는 것 같습니다. 이것에 대한 이유가 있습니까? 사람들이 단순히 신경 쓰지 않는다면 신경망 외부에서 신경 쓰지 않아도되는 이유가 있습니까?
딥 러닝 문학은 기울기 강하에서 일정하지 않은 학습 속도를 사용하는 영리한 속임수로 가득합니다. 지수 붕괴, RMSprop, Adagrad 등은 구현하기 쉽고 모든 딥 러닝 패키지에서 사용할 수 있지만 신경망 외부에는 존재하지 않는 것 같습니다. 이것에 대한 이유가 있습니까? 사람들이 단순히 신경 쓰지 않는다면 신경망 외부에서 신경 쓰지 않아도되는 이유가 있습니까?
답변:
면책 조항 : 신경망 외부의 최적화에 대한 경험이 많지 않으므로 대답이 명확하게 바이어스되지만 역할을하는 몇 가지 사항이 있습니다.
(딥) 신경 네트워크에는 많은 매개 변수가 있습니다. 여기에는 몇 가지 의미가 있습니다.
첫째, 그것은 Hessian과 더 높은 파생물을 계산하는 것이 불가능 해지기 때문에 단순히 고차원 방법을 배제합니다. 다른 영역에서는 SGD를 조정하는 것보다 효과적인 방법 일 수 있습니다.
둘째, SGD는 훌륭 하지만 비현실적으로 느린 경향이 있습니다. 이러한 개선 된 SGD 변형은 주로 빠른 교육을 가능하게하는 동시에 SGD의 멋진 속성 중 일부를 잃을 수 있습니다 . 다른 영역에서는 SGD 교육 시간에 병목 현상이 발생하지 않을 수 있으므로 속도를 높여 얻은 개선 사항은 무시할 수 있습니다.
훈련 (깊은) 신경 네트워크는 비 볼록 최적화 이며 현장에서 볼록한 이완 결과를 잘 모릅니다. 다른 분야와 달리 신경망은 전 세계적으로 최적의 솔루션에 초점을 맞추지 않으므로 최적화 중에 손실 표면의 특성과 횡단면을 개선하기 위해 더 많은 노력을 기울입니다.
다른 분야에서는, 일단 볼록한 문제로 정의되면, 최적화 알고리즘의 선택이 솔루션의 품질을 향상시킬 수 없기 때문에, 볼록 완화를 사용하고 세계적으로 최적의 솔루션을 얻는 것이 최적화 알고리즘 대신 관심의 중심에있을 수있다 .
이 답변이 가능한 모든 측면을 다루지는 않으며 다른 의견에 대해 궁금합니다.