경사 하강은 항상 최적으로 수렴합니까?


21

그래디언트 디센트가 최소로 수렴하지 않는 시나리오가 있는지 궁금합니다.

그래디언트 디센트가 항상 전역 최적으로 수렴되는 것은 아닙니다. 또한 계단 크기가 너무 클 경우 최적에서 벗어날 수 있다는 것도 알고 있습니다. 그러나, 그것이 어떤 최적에서 벗어나면 결국 다른 최적으로 갈 것 같습니다.

따라서, 경사 하강은 국부적 또는 세계적 최적으로 수렴되도록 보장 될 것이다. 맞습니까? 그렇지 않은 경우 대략적인 반례를 제시해 주시겠습니까?


1
이 링크가 미래에 도움이 되길
Aditya

1
그라디언트 하강의 애니메이션을 만드는 증거, 이미지 및 코드를 포함하여 구체적이고 간단한 3 가지 예는 이 답변 을 참조하십시오.
Oren Milman

답변:


28

그라디언트 하강은 최적의 점을 찾기 위해 설계된 알고리즘이지만 이러한 최적의 점이 반드시 전역적인 것은 아닙니다. 그리고 그것이 그것이 지역 위치에서 분기되는 경우에 그것은 다른 최적의 지점으로 수렴 할 수 있지만 그 확률은 그리 크지 않습니다. 그 이유는 스텝 크기가 너무 커서 하나의 최적의 포인트를 받도록 자극 할 수 있고 진동 할 확률은 수렴 이상의 것입니다.

그래디언트 디센트에는 머신 러닝 시대와 딥 러닝 시대라는 두 가지 주요 관점이 있습니다. 머신 러닝 시대에는 그래디언트 디센트가 로컬 / 글로벌 최적을 찾을 수 있지만 입력 피쳐의 치수가 너무 많은 딥 러닝 시대에서는 실제로 모든 피쳐가 최적의 값에 위치 할 확률이 표시됩니다 단일 지점에서의 비용은 그다지 높지 않고 비용 함수에서 최적의 위치를 ​​찾는 것으로 대부분의 안장 지점이 관찰됩니다. 이것은 많은 데이터를 사용한 훈련과 훈련 시대가 딥 러닝 모델이 다른 알고리즘보다 성능을 향상시키는 이유 중 하나입니다. 따라서 모델을 훈련 시키면 우회를 발견하거나 내리막 길을 찾아 안장 지점에 갇히지 않지만 적절한 단계 크기를 가져야합니다.

더 많은 직관을 위해 여기여기 를 참조 하십시오 .


3
바로 그거죠. 이러한 문제는 항상 이론적으로 나타나지만 실제로는 거의 발생하지 않습니다. 차원이 너무 커서 문제가되지 않습니다. 하나의 변수에는 로컬 최소값이 있지만 다른 변수에는 없습니다. 또한, 미니 배치 또는 확률 적 그라디언트 디센트는 로컬 최소값을 피하는 데 도움이됩니다.
Ricardo Cruz

3
@RicardoCruz 예, 저는 동의합니다
미디어

12

언급 한 지점 (전역이 아닌 최소값으로 수렴하고 단계 크기가 크면 수렴이 아닌 알고리즘으로 이어질 수 있음) 외에도 "변형 범위"도 문제가 될 수 있습니다.

다음과 같은 "의자 의자"유형의 기능을 고려하십시오.

여기에 이미지 설명을 입력하십시오

명백하게, 이것은 구배가 0 벡터 인 중간에 범위가 있도록 구성 될 수있다. 이 범위에서 알고리즘은 무한정 중단 될 수 있습니다. 변곡점 은 일반적으로 국소 극단으로 간주되지 않습니다.



3

[참고 5 2019 년 4 월 : arXiv에서 새로운 버전의 논문이 여러 가지 새로운 결과로 업데이트되었습니다. 또한 Momentum 및 NAG의 역 추적 버전을 소개하고 역 추적 그라디언트 디센트와 동일한 가정 하에서 수렴을 증명합니다.

소스 코드는 GitHub의 https://github.com/hank-nguyen/MBT-optimizer 링크에서 제공됩니다.

우리는 DNN에 적용하기위한 알고리즘을 개선했으며 MMT, NAG, Adam, Adamax, Adagrad 등과 같은 최첨단 알고리즘보다 우수한 성능을 얻었습니다.

우리 알고리즘의 가장 특별한 특징은 자동 알고리즘이므로 학습 속도를 수동으로 미세 조정할 필요가 없습니다. 우리의 자동 미세 조정은 본질적으로 Adam, Adamax, Adagrad 등과는 다릅니다. 자세한 내용은 논문에 있습니다.

]

최근 결과를 기반으로 :이 논문의 공동 작업에서 https://arxiv.org/abs/1808.05160

f

위의 내용을 기반으로, 우리는 현재의 최신 방법과 동등하며 학습 속도를 수동으로 미세 조정할 필요가없는 딥 러닝의 새로운 방법을 제안했습니다. (A에서 간단히 말해서 , 아이디어는 당신이 안정 될 각 반복과 변화, 학습 속도가. 우리는 중요한 시점에서 특히,이 안정화를 기대하는 것을 볼 때까지, 그라데이션 하강 시간의 일정 금액을 되돌아 실행하는 것이있다 C ^ 2는 위에서 언급 한 수렴 결과로 인해 퇴화되지 않습니다.이 시점에서 표준 그래디언트 디센트 방법으로 전환합니다 자세한 내용은 인용 된 논문을 참조하십시오이 방법은 다른 최적의 알고리즘에도 적용 할 수 있습니다 .)

추신 표준 그라디언트 디센트 방법에 대한 귀하의 원래 질문과 관련하여,지도의 파생물이 전 세계적으로 Lipschitz이고 표준 그라디언트 디센트 방법이 수렴되는 것으로 입증 된 학습 속도 인 경우에만 제 지식이 있습니다. [이러한 조건이 충족 되지 않으면 수렴 결과가 없다는 것을 보여주는 간단한 반대 사례 가 있습니다. 일부 인용 문헌을 참조하십시오.] 위에서 인용 한 논문에서 장기적으로 역 추적 경사 하강 법은 표준 구배 하강 방법은 표준 구배 하강 방법이 실제로 실제로 잘 작동하는 이유를 설명합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.