그래디언트 디센트가 최소로 수렴하지 않는 시나리오가 있는지 궁금합니다.
그래디언트 디센트가 항상 전역 최적으로 수렴되는 것은 아닙니다. 또한 계단 크기가 너무 클 경우 최적에서 벗어날 수 있다는 것도 알고 있습니다. 그러나, 그것이 어떤 최적에서 벗어나면 결국 다른 최적으로 갈 것 같습니다.
따라서, 경사 하강은 국부적 또는 세계적 최적으로 수렴되도록 보장 될 것이다. 맞습니까? 그렇지 않은 경우 대략적인 반례를 제시해 주시겠습니까?
그래디언트 디센트가 최소로 수렴하지 않는 시나리오가 있는지 궁금합니다.
그래디언트 디센트가 항상 전역 최적으로 수렴되는 것은 아닙니다. 또한 계단 크기가 너무 클 경우 최적에서 벗어날 수 있다는 것도 알고 있습니다. 그러나, 그것이 어떤 최적에서 벗어나면 결국 다른 최적으로 갈 것 같습니다.
따라서, 경사 하강은 국부적 또는 세계적 최적으로 수렴되도록 보장 될 것이다. 맞습니까? 그렇지 않은 경우 대략적인 반례를 제시해 주시겠습니까?
답변:
그라디언트 하강은 최적의 점을 찾기 위해 설계된 알고리즘이지만 이러한 최적의 점이 반드시 전역적인 것은 아닙니다. 그리고 그것이 그것이 지역 위치에서 분기되는 경우에 그것은 다른 최적의 지점으로 수렴 할 수 있지만 그 확률은 그리 크지 않습니다. 그 이유는 스텝 크기가 너무 커서 하나의 최적의 포인트를 받도록 자극 할 수 있고 진동 할 확률은 수렴 이상의 것입니다.
그래디언트 디센트에는 머신 러닝 시대와 딥 러닝 시대라는 두 가지 주요 관점이 있습니다. 머신 러닝 시대에는 그래디언트 디센트가 로컬 / 글로벌 최적을 찾을 수 있지만 입력 피쳐의 치수가 너무 많은 딥 러닝 시대에서는 실제로 모든 피쳐가 최적의 값에 위치 할 확률이 표시됩니다 단일 지점에서의 비용은 그다지 높지 않고 비용 함수에서 최적의 위치를 찾는 것으로 대부분의 안장 지점이 관찰됩니다. 이것은 많은 데이터를 사용한 훈련과 훈련 시대가 딥 러닝 모델이 다른 알고리즘보다 성능을 향상시키는 이유 중 하나입니다. 따라서 모델을 훈련 시키면 우회를 발견하거나 내리막 길을 찾아 안장 지점에 갇히지 않지만 적절한 단계 크기를 가져야합니다.
[참고 5 2019 년 4 월 : arXiv에서 새로운 버전의 논문이 여러 가지 새로운 결과로 업데이트되었습니다. 또한 Momentum 및 NAG의 역 추적 버전을 소개하고 역 추적 그라디언트 디센트와 동일한 가정 하에서 수렴을 증명합니다.
소스 코드는 GitHub의 https://github.com/hank-nguyen/MBT-optimizer 링크에서 제공됩니다.
우리는 DNN에 적용하기위한 알고리즘을 개선했으며 MMT, NAG, Adam, Adamax, Adagrad 등과 같은 최첨단 알고리즘보다 우수한 성능을 얻었습니다.
우리 알고리즘의 가장 특별한 특징은 자동 알고리즘이므로 학습 속도를 수동으로 미세 조정할 필요가 없습니다. 우리의 자동 미세 조정은 본질적으로 Adam, Adamax, Adagrad 등과는 다릅니다. 자세한 내용은 논문에 있습니다.
]
최근 결과를 기반으로 :이 논문의 공동 작업에서 https://arxiv.org/abs/1808.05160
위의 내용을 기반으로, 우리는 현재의 최신 방법과 동등하며 학습 속도를 수동으로 미세 조정할 필요가없는 딥 러닝의 새로운 방법을 제안했습니다. (A에서 간단히 말해서 , 아이디어는 당신이 안정 될 각 반복과 변화, 학습 속도가. 우리는 중요한 시점에서 특히,이 안정화를 기대하는 것을 볼 때까지, 그라데이션 하강 시간의 일정 금액을 되돌아 실행하는 것이있다 C ^ 2는 위에서 언급 한 수렴 결과로 인해 퇴화되지 않습니다.이 시점에서 표준 그래디언트 디센트 방법으로 전환합니다 자세한 내용은 인용 된 논문을 참조하십시오이 방법은 다른 최적의 알고리즘에도 적용 할 수 있습니다 .)
추신 표준 그라디언트 디센트 방법에 대한 귀하의 원래 질문과 관련하여,지도의 파생물이 전 세계적으로 Lipschitz이고 표준 그라디언트 디센트 방법이 수렴되는 것으로 입증 된 학습 속도 인 경우에만 제 지식이 있습니다. [이러한 조건이 충족 되지 않으면 수렴 결과가 없다는 것을 보여주는 간단한 반대 사례 가 있습니다. 일부 인용 문헌을 참조하십시오.] 위에서 인용 한 논문에서 장기적으로 역 추적 경사 하강 법은 표준 구배 하강 방법은 표준 구배 하강 방법이 실제로 실제로 잘 작동하는 이유를 설명합니다.