Jed Brown이 언급했듯이, 비선형 최적화에서 기울기 하강과 동적 시스템의 시간 스텝핑 사이의 연결은 어떤 빈도로 다시 발견됩니다 (이것은 두 개의 다른 필드를 연결하기 때문에 수학적 사고에 대한 매우 만족스러운 연결이기 때문에 이해할 수 있습니다). 그러나, 특히 당신이 묘사하는 상황에서 유용한 연결 이되는 것은 거의 없습니다 .
역 문제에서, 사용자는 (부당한 제기) 연산자 방정식 관련 와 하지 않는 범위에서 . (최적의 제어 문제는 및 하여 하나의 인스턴스로 볼 수 있습니다 .) 여러 정규화 전략 (예 : Tikhonov 또는 Landweber)은 단일 의사 시간으로 해석 할 수 있습니다 특정 수업의 단계. 그런 다음 정규화 매개 변수의 해석을 단계 길이로 사용하여 매개 변수에 대한 일부 (적응 적, 사후 적) 선택 규칙 (역 문제의 근본적인 문제)을 얻고 여러 의사 시간 단계를 수행하는 것이 좋습니다. 진정한 비정규 솔루션에 접근y δ F F에프( u ) = yδ와이δ에프 y δ = y 0에프= A− 1와이δ= y0숫자 연속 ). 이것을 연속 정규화 라고도하며 일반적으로 레벨 설정 방법의 맥락에서 설명합니다. 예를 들어 Kaltenbacher, Scherzer, Neubauer : 6.1 장 비선형 문제에 대한 반복 정규화 방법 (de Gruyter, 2008)의 6.1 장을 참조하십시오 .
x k + 1 = x k − γ k ∇ f ( x k ) , ˙ x ( t ) = − ∇ f ( x ( t ) ) ,분엑스에프( x )
엑스k + 1= x케이− γ케이∇ f( x케이) ,
γ k x ( t )엑스˙( t ) = − ∇ f( x ( t ) ) ,x ( 0 ) = x0.
γ케이x ( t )그라디언트 디센트와는 독립적이며 표준 오일러보다 더 적절한 타임 스텝핑 (및 최적화) 방법으로 이어지지 않을 수 있습니다. 내 머리 꼭대기에서 몇 가지 예 :
그래디언트 흐름이 존재하는 자연 함수 공간이 있습니까? 그렇다면 그라디언트 단계는 동일한 공간에서 가져와야합니다 (즉, 이산화가 적합해야 함). 예를 들어, 서로 다른 내부 제품 (때로는 Sobolev 기울기 라고 함 )과 관련하여 기울기의 Riesz 표현을 계산 하고 실제로 훨씬 빠르게 수렴되는 사전 조건화 된 반복으로 이어집니다.
아마 벡터 공간하지 속해야하지만 매니 폴드 (즉, 대칭 양 정치 행렬), 또는 경사 흐름 특정 표준 보존한다 . 이 경우, 구조 보존 시간-스텝핑 계획을 적용 할 수 있습니다 (예 : 적절한 Lie 그룹 또는 기하 적분기에 대한 풀백 포함).x엑스엑스
경우 미분이 아니라 볼록 인해 스텝 사이즈 제한 매우 느릴 수 subgradient 하강 법에 순방향 오일러 단계에 대응한다. 다른 한편으로, 암시 적 오일러 단계 는 그러한 제한이 적용되지 않는 (그리고 따라서 이미지 처리에서 매우 인기가 있는) 근위 점 방법에 해당한다 .에프
유사한 맥락에서, 이러한 방법은 외삽 단계에 의해 상당히 가속화 될 수있다. 이러한 동기를 부여하는 한 가지 방법은 기울기 방향이 "진동"하기 때문에 표준 1 차 방법이 최소화기에 가깝게 많은 작은 단계를 수행해야한다는 점을 관찰하는 것입니다 (공액 기울기가 가장 가파른 내리막을 능가하는 표준 그림을 생각하십시오). 이를 해결하기 위해 1 차 동적 시스템을 풀지 않고 2 차 감쇠 시스템을 사용하여 반복을 "감쇠"할 수 있습니다 .
적절하게 선택된 대한 . 적절한 불연속 화를 통해 다음과 같은 형태의 반복 ( Polyak의 헤비 볼 방법 )이 발생합니다.
ㅏ1엑스¨( t ) + a2엑스˙( t ) = − ∇ f( x ( t ) )
ㅏ1,2엑스k + 1= x케이− γ케이∇ f( x케이) + α케이( x케이− xk - 1)
( 에 따라 ). 근위 점 방법에 대한 유사한 아이디어가 존재합니다 (예 : Dirk Lorenz 및 Thomas Pock 의 논문 http://arxiv.org/pdf/1403.3522.pdf 참조) .γ케이, α케이ㅏ1,2
(내 지식에 따르면, 대부분의 경우 역학 시스템으로서의 해석은 알고리즘의 도출 또는 수렴 증거에 반드시 필요한 것은 아니었다. "암시 적 대 명시 적"또는 거짓말 파생어와 같은 아이디어를 주장 할 수있다 실제로 동적 시스템이나 경사 하강 방법보다 더 근본적이지만 문제를 살펴볼 다른 견해를 갖는 것은 결코 아프지 않습니다.)
편집 : 난 그냥 ODE 해석이 네 스테 로프의 extragradient 방법의를 추론 속성에 사용 개선을 제안하는 두 번째 맥락에서 훌륭한 예를 우연히 발견 :
http://arxiv.org/pdf/1503.01243.pdf
(주이는 것을 저자는 명백하게 Polyak의 알고리즘을 알지 못하고 위의 4 점을 재발견한다는 점에서 Jed Brown의 요점의 예입니다.)
편집 2 : 얼마나 멀리 갈 수 있는지 표시하기 위해 http://arxiv.org/pdf/1509.03616v1.pdf의 5 페이지를 참조하십시오 .