저는 현재 SGD
역 전파를 사용하는 신경망에 대해 확률 적 그라디언트 디센트 (Stochastic Gradient Descent)를 구현 하고 있으며 그 목적을 이해하는 동안 학습률에 대한 값을 선택하는 방법에 대한 몇 가지 질문이 있습니다.
- 학습률은 하강 률을 지시하므로 오차 기울기의 모양과 관련이 있습니까?
- 그렇다면이 정보를 어떻게 사용하여 가치에 대한 결정을 내립니까?
- 어떤 종류의 값을 선택하지 않으면 어떻게 선택해야합니까?
- 오버 슈팅을 피하기 위해 작은 값을 원할 것 같지만 로컬 최소값에 걸리지 않거나 하강하는 데 걸리지 않는 값을 어떻게 선택합니까?
- 일정한 학습 속도를 갖는 것이 합리적입니까, 아니면 그래디언트에서 최소에 가까워 질 때 일부 메트릭을 사용하여 값을 변경해야합니까?
간단히 말해서 : SGD의 학습률을 어떻게 선택합니까?