볼록하지 않은 기능에 그래디언트 디센트를 적용 할 수 있습니까?

18

나는 단지 최적화에 대해 배우고 있고 볼록과 비 볼록 최적화의 차이점을 이해하는데 어려움을 겪고 있습니다. 내 이해에서 볼록 함수는 "함수 그래프의 두 지점 사이의 선분이 그래프 위에 있거나 그래프 위에있는 것"입니다. 이 경우 그라디언트 하강 알고리즘을 사용할 수 있습니다. 단일 최소값이 있고 그라디언트가 항상 최소값으로 이동하기 때문입니다.

그러나이 그림의 기능은 어떻습니까?

여기서 파란색 선분은 빨간색 기능 아래에서 교차합니다. 그러나이 함수에는 여전히 최소값이 있으므로 그래디언트 디센트는 여전히이 최소값으로 이동합니다.

그래서 내 질문은 :

1)이 그림의 기능이 볼록합니까, 볼록하지 않습니까?

2) 볼록하지 않은 경우에도 볼록 최적화 방법 (그라데이션 디센트)을 계속 적용 할 수 있습니까?

optimization

— 카르 니 바우 루스
소스

21

그래프로 그린 함수는 실제로 볼록하지 않습니다. 그러나 quasiconvex 입니다.

그라디언트 디센트 (gradient descent)는 지속적인 최적화를위한 일반적인 방법이므로 볼록하지 않은 함수에 적용 할 수 있으며 매우 일반적으로 적용됩니다. 부드러운 기능과 합리적으로 선택된 단계 크기를 사용하면 값이 로 엄격하게 감소 하는 일련의 포인트 가 생성됩니다 . $x_1, x_2, \ldots$ $f(x_1) > f(x_2) > \ldots$

구배 하강은 결국 볼록성과 상관없이 기능의 정지 점으로 수렴됩니다. 함수가 볼록한 경우 이는 전역 최소값이지만, 그렇지 않은 경우 로컬 최소값 또는 안장 점이 될 수 있습니다.

Quasiconvex 함수는 흥미로운 경우입니다. quasiconvex 함수의 로컬 최소값도 전체 최소값이지만 quasiconvex 함수는 로컬 최소값이 아닌 고정 점을 가질 수도 있습니다 (예 : 사용). 따라서 이론적으로 그래디언트 디센트는 이러한 고정 지점에 갇히고 글로벌 최소값으로 진행되지 않을 수 있습니다. 귀하의 예에서, 그래프의 왼쪽에있는 어깨가 완벽하게 수평을 유지하면 경사 하강이 멈출 수 있습니다. 그러나 헤비 볼 방식과 같은 변형은 "롤 스루"하고 전 세계 최소값에 도달 할 수 있습니다. $f(x) = x^3$

— 폴
소스

5

바울은 이미 한 가지 중요한 점을 언급했습니다.

f가 볼록한 경우 새들 포인트가없고 모든 로컬 최소값도 전역입니다. 따라서 GD (적절한 단계 화 포함)는 글로벌 최소화기를 찾도록 보장됩니다.

볼록하지 않은 최적화를 어렵게 만드는 이유는 경사가 (0, ..., 0)이고 임의로 나쁜 객관적인 값을 갖는 새들 포인트와 로컬 최소값의 존재입니다.

이러한 설정에서 글로벌 minmizer를 찾는 것은 일반적으로 NP-hard이며 대신 로컬 최소화기를 찾는 목표로 해결됩니다.

그러나 다음 사항에 유의하십시오.

안장에 붙어 GD의 아기는 실제로 0입니다 ( 여기 참조 ).
그러나 안장 점이 있으면 곡률이 낮은 방향이 너무 느리게 이용되므로 GD 진행이 심각하게 느려질 수 있습니다 ( 여기 참조 ).

문제의 차원에 따라 2 차 최적화 루틴을 수행하는 것이 좋습니다.

— 요나손
소스