비 볼록성이 최적화에서 왜 문제가됩니까?


20

볼록하지 않은 최적화에 대한 일반적인 내용을 읽었을 때 매우 놀랐고 다음과 같은 진술을 보았습니다.

중요한 많은 실질적인 문제는 볼록하지 않으며, 볼록하지 않은 대부분의 문제는 합리적인 시간에 정확하게 해결하기가 어렵습니다 (불가능하지는 않지만). ( 소스 )

또는

일반적으로 로컬 최소값을 찾는 것은 NP-hard이며 많은 알고리즘이 새들 포인트에 멈출 수 있습니다. ( 소스 )

저는 매일 볼록하지 않은 최적화를하고 있습니다. 즉 분자 기하학의 이완입니다. 나는 그것을 까다 롭고 느리고 끈적 거리는 것으로 생각하지 않았습니다. 이와 관련하여, 우리는 분명히 다차원 비 볼록 표면 (> 1000 자유도)을 가지고 있습니다. 우리는 FIRE 와 같은 가파른 하강 및 동적 담금질에서 파생 된 1 차 기법을 주로 사용하며 , 이는 수백 단계로 국지적 최소값 (DOF 수 미만)으로 수렴합니다. 확률 적 노이즈를 추가 하면 지옥처럼 견고해야합니다. (글로벌 최적화는 다른 이야기입니다)

어떻게 든 이러한 최적화 방법을 고착 시키거나 천천히 수렴시키기 위해 잠재적 에너지 표면 이 어떻게 생겼는지 상상할 수 없다 . 예를 들어 병리학적인 PES (비 볼록성으로 인한 것은 아님)가 이러한 나선 이지만 큰 문제는 아닙니다. 병적 인 비 볼록한 PES의 예를 들어 줄 수 있습니까?

따라서 위의 인용문과 논쟁하고 싶지 않습니다. 오히려 여기에 뭔가 빠진 느낌이 듭니다 . 아마도 상황 일 것이다.


4
여기서 핵심 단어는 "일반적으로"입니다. 특히 기본적으로 "모든 안 장점"인 매우 높은 차원에서 임의로 불쾌한 기능을 구성 할 수 있습니다. 반면 특정 비 볼록 기능은 특히 적절한 세계화 전략을 사용하는 경우 매우 훌륭하게 작동 할 수 있습니다.
Christian Clason

2
최적의 제어 이론과 엔지니어링 / 운영 연구 응용 프로그램은 정확성 / 견고성에 중점을두고 있다고 생각하지만 "충분히 좋은"곳을 얻는 것이 충분하다고 생각합니다. 성능 한계 (수렴이 보장되어야하므로 로봇의 궤도가 시간으로 계산 됨) 또는 정확성 한계 (문제 매개 변수를 약간 변경해도 예상치 못한 결과가 나오지 않을 수 있음)가있을 수 있습니다. 따라서 최적의 점수를 얻는 것만으로는 충분하지 않으며 처방 된 속성을 가져야합니다.
Kirill

답변:


23

오해는 와 같은 최적화 문제를 "해결하는"구성 요소에 있습니다 . 수학자에게는 문제가 다음과 같은 경우에만 "해결 된"것으로 간주됩니다.argminf(x)

  1. 후보 솔루션 : 결정 변수 및 해당 목표 값 의 특정 선택 및 f ( x )xf(x)
  2. 최적의 증거 : 의 선택 이 전체적으로 최적 이라는 수학적 증거 , 즉 는 모든 선택에 됩니다. f ( x ) f ( x ) xxf(x)f(x)x

경우 볼록 두 성분은 용이하게 얻어진다. 그라디언트 디센트는 그라디언트를 만드는 후보 솔루션 를 찾습니다 . 최적의 증거 MATH101에 개시된 단순한 사실로부터 다음, 그 경우 볼록한, 그 구배 사라지다에서 후 글로벌 솔루션이다.x fxf f x x f(x)=0ffxx

때 비 볼록 인 후보 솔루션은 여전히 쉽게 찾을 수 있지만, 최적의 증거는 매우 어려워진다. 예를 들어 그라디언트 디센트를 실행하고 점 있습니다. 그러나 가 볼록 하지 않은 경우 이 필요하지만 더 이상 전역 최적성에는 충분하지 않습니다. 실제로, 그것은 로컬 최적 성을 위해 충분하지도 않습니다 . 즉, 가 그레디언트 정보만으로 로컬 최소값 임을 보장 할 수 없습니다 . 한 가지 접근 방식은 만족하는 모든 점을 열거하는 것이며 , 이는 1 차원 또는 2 차원에 걸쳐도 엄청난 작업이 될 수 있습니다.f ( x ) = 0 f f ( x ) = 0 x f ( x ) = 0ff(x)=0ff(x)=0xf(x)=0

수학자들이 대부분의 문제를 해결하는 것이 불가능하다고 말하면, (최소한 지역적) 최적성에 대한 증거를 구축하는 것이 불가능하다고 실제로 말하는 것입니다 . 그러나 현실 세계에서 우리는 종종 "충분한"솔루션을 계산하는 데에만 관심이 있으며, 이것은 수많은 방법으로 찾을 수 있습니다. 볼록하지 않은 많은 문제들에 대해, 우리의 직관은 "충분히 좋은"솔루션이 완전히 증명할 수없는 경우에도 실제로 세계적으로 최적이라는 것을 알려줍니다!


글로벌 대 로컬 최적 성은 완전히 다른 문제입니다. 그러나 나머지는 말이됩니다. "x는 그것의 기울기 정보만으로 지역 최소값을 보장 할 수 없다"고 더 말할 수 있습니까?
Prokop Hapala

함수 및 를 블랙 박스로 가정합니다 (즉, 평가 만 할 수는 있지만 그 형태를 볼 수는 없습니다). 점 은 두 그래디언트를 모두 사라지게합니다 (예 : 및 . 점은 의 로컬 최소값입니다 . 실제로이 시점에서 이차 파생 상품도 0이므로 두 시나리오는 처음 두 파생 상품과 동일합니다! f(x)=x3g(x)=x4x=0f(x)=0g(x)=0g
Richard Zhang

AHA, OK, I는 항상 자동 관성 => 알고리즘 지점으로 수렴하는 경향이없는 것이라고 추측 에서 전혀있다. 그러나 우리는 한 단계의 기울기뿐만 아니라 이전 단계의 추가 정보 (관성)를 사용합니다. x=0g(x)=x3
Prokop Hapala

나는 당신의 요점을 이해합니다. 그리고 아마도 이것이 엄밀한 수학적인 의미에서 볼록하지 않은 최적화가 어려운 것으로 여겨지는 이유 일 것입니다. 그러나 여전히 휴리스틱 (알고리즘의 자연스러운 부분이라고 가정)이 비참하게 실패하는 실제 응용 프로그램에 더 관심이 있습니다.
Prokop Hapala

quasiconvexity는 어떻습니까? 이 논리에 의해 (( 이면 충분합니다), quasiconvex 문제가 볼록 문제만큼 최적화하기 쉽지 않습니까? 나의 이해는 후자가 사실이라는 것입니다. (볼록 문제는 여전히 더 쉽습니다)f(x)=0
Amelio Vazquez-Reina

6

까다로운 저 차원 문제의 예는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

지역 최소값에 도달 한 경우 글로벌 최소값에 가까운 것이 무엇인지 어떻게 확인할 수 있습니까? 결과가 전 세계적으로 최적이라는 결과가 고유 한 최적 솔루션인지 어떻게 알 수 있습니까? 모든 언덕과 계곡에 강력한 알고리즘을 만들어 어딘가에 갇히지 않게하려면 어떻게해야합니까?

이와 같은 예는 상황이 어려워 질 수있는 곳입니다. 분명히 모든 문제가 이와 같은 것은 아니지만 일부 문제가 있습니다. 더 나쁜 것은, 산업 환경에서 비용 함수는 계산에 시간이 걸리고 위와 같은 문제가있는 표면 일 수 있다는 것입니다.

실제 문제 예

직장에서 해결할 수있는 예는 많은 발사 조건에서 강력 할 수있는 미사일 유도 알고리즘을 최적화하는 것입니다. 클러스터를 사용하면 단일 조건에서 약 10 분 안에 필요한 성능 측정 값을 얻을 수 있습니다. 이제 견고성을 적절하게 판단하기 위해 적어도 하나의 조건을 판단해야합니다. 6 가지 조건을 실행하여이 비용 함수를 평가하는 데 1 시간이 걸립니다.

비선형 미사일 역학, 대기 역학, 불연속 시간 프로세스 등은 유도 알고리즘의 변화에 ​​대해 비선형 반응을 일으켜 최적화를 해결하기가 어렵습니다. 이 비용 함수가 볼록하지 않다는 사실은 큰 문제를 평가하는 데 시간이 걸리는 사실입니다. 이와 같은 예는 우리가 주어진 시간에 최선을 다하기 위해 노력하는 곳입니다.


1
좋아, 이것은 다른 문제라고 생각합니다 ... 전역 최적화의 조사는 분명히 어렵고 대부분의 상황에서 해결할 수 없습니다. 그러나 사람들이 볼록하지 않은 최적화와 관련하여 사람들이 말하는 것은 아닙니다 .NP가 지역 최소값을 찾기에는 어렵고 많은 알고리즘이 안 장점에 갇힐 수
Prokop Hapala

1
@ProkopHapala 내 의견이 더 많은 인용을 언급했다 중요성을 많은 실질적인 문제가 아닌 볼록이며, 대부분의 비 볼록 문제는 적절한 시간에 정확하게 해결하기 위해 하드 (불가능하지는 않더라도)이다 영업 이익이 얼마나 간단한 지에 대해 얘기했다 특히 이후, 연구에서 볼록하지 않은 문제를 해결하는 것이 었습니다. 나에게 정확하게 해결 하는 것은 세계적으로 최적의 솔루션 (또는 가까운 것)을 위해 노력하고 있습니다. 그래서 저는 이러한 의견들과 관련된 실제 과제에 대한 그림을 그렸습니다.
spektr

이해 했어. 엄밀히 말하면 당신은 옳지 만 여전히 나는 그것이 의미하는 바를 다루지 않는다고 생각합니다 ... 아마도 나는 그것을 더 잘 공식화해야했을 것입니다.
Prokop Hapala

5

문제는 당신이 연결 한 게시물에서 논의 된 안장 지점의 문제입니다. 링크 된 기사 중 하나의 요약에서 :

그러나, 일반적으로 복잡한 차원의 안 장점 구조로 인해 이러한 알고리즘이 로컬 최소값으로 수렴되는 것을 보장하기는 어렵습니다. 많은 함수들이 1 차 및 2 차 미분 값을 로컬 옵티마와 구별 할 수 없도록 새들 포인트를 축퇴합니다 . 이 논문에서 우리는 이러한 안 장점을 피하기 위해 고차 미분을 사용한다 : 우리는 3 차 지역 최적 (수기 기술은 최대 2 차)으로 수렴되도록 보장 된 첫 번째 효율적인 알고리즘을 설계한다. 우리는 이것을 4 차 로컬 옵티마를 찾는 데까지 확장시키는 것이 NP-hard라는 것을 보여줍니다.

기본적으로 1 차, 2 차 및 3 차 미분을 볼 때 지역 최소 점과 구별 할 수없는 새들 포인트가있는 기능을 가질 수 있습니다. 고차 옵티 마이저로 이동하면이 문제를 해결할 수 있지만 4 차 로컬 최소값을 finidng하면 NP가 어렵다는 것을 알 수 있습니다.

x2y+y2

많은 휴리스틱을 사용하여 이러한 점을 피할 수 있습니다.이 점은 많은 (대부분의) 실제 사례에서 작동하지만 항상 작동하는 것으로 입증 될 수는 없습니다 .
에서 블로그 게시물 당신은 또한 당신이 다항식 시간에 같은 안장 포인트를 탈출 할 수있는 조건을 논의 링크.


x2y+y2

2
다른 방법으로 봐야합니다. 확률 적 그라디언트 하강이 실패한다는 것은 우리가 아는 것이 아니라 성공할 것이라는 것을 모르는 것입니다. 장난감 문제의 경우 이는 실제로는 발생하지 않지만보다 높은 차원의 문제에서는 발생할 수 있습니다. 내 생각에 당신의 화학 문제에 대해서는 이런 일이 결코 일어나지 않을 것이지만, 나는 그것을 증명하기가 쉽지 않을 것입니다.
LKlevin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.