일부 최적화 문제는 시간 단계와 동일하다는 것이 잘 알려져 있습니까?


19

원하는 상태 와이0 과 정규화 매개 변수 β아르 자형 을 고려하여 , 기능 을 최소화하기 위해 상태 와이 와 제어 를 찾는 문제를 고려하십시오.Ay=u입니다. y,y0,uRnARn×n

12와이와이02+β22
와이=.
와이,와이0,아르 자형아르 자형×

상기 라그랑 성형 고정 점을 찾고, 상기 제어 제거 우리는 1 차 조건을 얻을

λ=와이0와이와이=1βλ
의해 Premultiplying 제 식 및 ^ T는 제에서 노멀 방정식 쓸 수 정렬} (I + \ 베타 AA ^ T) \ 람다 = \ 베타 {시작 \ y_0 \\ (I + \ beta A ^ TA) y & = y_0 \ end {align} 우리는 이것을 미분 방정식에 대한 역진 오일러 근사의 단일 단계로 해석 할 수 있습니다 \ begin {align} \ frac {\ partial \ lambda} {\ 부분 b} & = -AA ^ T \ lambda + A y_0, \ quad \ lambda (0) = 0 \\ \ frac {\ partial y} {\ partial b} & = -A ^ TA y, \ quad y (0) = y_0 \ end {align}
(나는+β)λ=β와이0(나는+β)와이=와이0
λ=λ+와이0,λ(0)=0와이=와이,와이(0)=와이0
pseudotimestep β .

내 질문 :이 연결이 잘 알려져 있습니까? 타임 스텝핑 또는 최적화의 표준 처리에서 논의됩니까? (나에게 그것은 그들 사이에 일종의 직관적 인 연결을 제공하는 것 같습니다.)

이 아이디어는 잘 알려져 있어야 할 정도로 단순 해 보이지만, 문헌을 검색하거나 사람들과 이야기하는 것은 나에게 이것이 논의되는 좋은 출처를 제공하지는 않았다. 내가 찾은 가장 가까운 것은 O. Scherzer와 J. Weichert (J. Math Imaging Vision 12 (2000) pp. 43-63)의 논문인데 초록 (첫 번째 문장)의 연결을 나타내지 만 그렇지 않습니다. 참조를 제공하거나 깊이있는 연결을 탐색하십시오.

이상적으로는 연결 상태를 설명 할뿐만 아니라 몇 가지 결과를 탐색하는 참조를 찾고 있습니다 (예 : 저렴한 전진 오일러 단계로 최적화 문제를 사전 조건화하는 것을 상상할 수 있음).


1
광범위하게 말하면 (아마도 이미 알고 있듯이) 의사 시간 스테핑 접근법은 문제를 일련의 ODE 세트의 정상 상태를 찾는 것으로 캐스팅하여 대수 방정식 (예 : KKT 시스템)을 해결하는 잘 알려진 방법입니다. 시간 변수는 실제로 의사 시간입니다. 그러나 KKT 조건의 특정 인스턴스를 단일 역방향 오일러 단계와 관련시키는 특정 연결을 알지 못합니다.
Geoff Oxberry

따로, 두 개의 ODE 중 하나만 해결하면됩니다 . 예를 들어, from 와 같이 1 차 필요한 조건 중 하나를 사용하여 계산할 수 있기 때문 입니다. λ와이λ
Christian Clason

답변:


17

Jed Brown이 언급했듯이, 비선형 최적화에서 기울기 하강과 동적 시스템의 시간 스텝핑 사이의 연결은 어떤 빈도로 다시 발견됩니다 (이것은 두 개의 다른 필드를 연결하기 때문에 수학적 사고에 대한 매우 만족스러운 연결이기 때문에 이해할 수 있습니다). 그러나, 특히 당신이 묘사하는 상황에서 유용한 연결 이되는 것은 거의 없습니다 .

역 문제에서, 사용자는 (부당한 제기) 연산자 방정식 관련 와 하지 않는 범위에서 . (최적의 제어 문제는 및 하여 하나의 인스턴스로 볼 수 있습니다 .) 여러 정규화 전략 (예 : Tikhonov 또는 Landweber)은 단일 의사 시간으로 해석 할 수 있습니다 특정 수업의 단계. 그런 다음 정규화 매개 변수의 해석을 단계 길이로 사용하여 매개 변수에 대한 일부 (적응 적, 사후 적) 선택 규칙 (역 문제의 근본적인 문제)을 얻고 여러 의사 시간 단계를 수행하는 것이 좋습니다. 진정한 비정규 솔루션에 접근y δ F F에프()=와이δ와이δ에프 y δ = y 0에프=1와이δ=와이0숫자 연속 ). 이것을 연속 정규화 라고도하며 일반적으로 레벨 설정 방법의 맥락에서 설명합니다. 예를 들어 Kaltenbacher, Scherzer, Neubauer : 6.1 장 비선형 문제에 대한 반복 정규화 방법 (de Gruyter, 2008)의 6.1 장을 참조하십시오 .

x k + 1 = x kγ kf ( x k ) , ˙ x ( t ) = f ( x ( t ) ) ,엑스에프(엑스)

엑스케이+1=엑스케이γ케이에프(엑스케이),
γ k x ( t )
엑스˙()=에프(엑스()),엑스(0)=엑스0.
γ케이엑스()그라디언트 디센트와는 독립적이며 표준 오일러보다 더 적절한 타임 스텝핑 (및 최적화) 방법으로 이어지지 않을 수 있습니다. 내 머리 꼭대기에서 몇 가지 예 :
  1. 그래디언트 흐름이 존재하는 자연 함수 공간이 있습니까? 그렇다면 그라디언트 단계는 동일한 공간에서 가져와야합니다 (즉, 이산화가 적합해야 함). 예를 들어, 서로 다른 내부 제품 (때로는 Sobolev 기울기 라고 함 )과 관련하여 기울기의 Riesz 표현을 계산 하고 실제로 훨씬 빠르게 수렴되는 사전 조건화 된 반복으로 이어집니다.

  2. 아마 벡터 공간하지 속해야하지만 매니 폴드 (즉, 대칭 양 정치 행렬), 또는 경사 흐름 특정 표준 보존한다 . 이 경우, 구조 보존 시간-스텝핑 계획을 적용 할 수 있습니다 (예 : 적절한 Lie 그룹 또는 기하 적분기에 대한 풀백 포함).x엑스엑스

  3. 경우 미분이 아니라 볼록 인해 스텝 사이즈 제한 매우 느릴 수 subgradient 하강 법에 순방향 오일러 단계에 대응한다. 다른 한편으로, 암시 적 오일러 단계 는 그러한 제한이 적용되지 않는 (그리고 따라서 이미지 처리에서 매우 인기가 있는) 근위 점 방법에 해당한다 .에프

  4. 유사한 맥락에서, 이러한 방법은 외삽 단계에 의해 상당히 가속화 될 수있다. 이러한 동기를 부여하는 한 가지 방법은 기울기 방향이 "진동"하기 때문에 표준 1 차 방법이 최소화기에 가깝게 많은 작은 단계를 수행해야한다는 점을 관찰하는 것입니다 (공액 기울기가 가장 가파른 내리막을 능가하는 표준 그림을 생각하십시오). 이를 해결하기 위해 1 차 동적 시스템을 풀지 않고 2 차 감쇠 시스템을 사용하여 반복을 "감쇠"할 수 있습니다 . 적절하게 선택된 대한 . 적절한 불연속 화를 통해 다음과 같은 형태의 반복 ( Polyak의 헤비 볼 방법 )이 발생합니다.

    1엑스¨()+2엑스˙()=에프(엑스())
    1,2
    엑스케이+1=엑스케이γ케이에프(엑스케이)+α케이(엑스케이엑스케이1)
    ( 에 따라 ). 근위 점 방법에 대한 유사한 아이디어가 존재합니다 (예 : Dirk Lorenz 및 Thomas Pock 의 논문 http://arxiv.org/pdf/1403.3522.pdf 참조) .γ케이,α케이1,2

(내 지식에 따르면, 대부분의 경우 역학 시스템으로서의 해석은 알고리즘의 도출 또는 수렴 증거에 반드시 필요한 것은 아니었다. "암시 적 대 명시 적"또는 거짓말 파생어와 같은 아이디어를 주장 할 수있다 실제로 동적 시스템이나 경사 하강 방법보다 더 근본적이지만 문제를 살펴볼 다른 견해를 갖는 것은 결코 아프지 않습니다.)


편집 : 난 그냥 ODE 해석이 네 스테 로프의 extragradient 방법의를 추론 속성에 사용 개선을 제안하는 두 번째 맥락에서 훌륭한 예를 우연히 발견 : http://arxiv.org/pdf/1503.01243.pdf (주이는 것을 저자는 명백하게 Polyak의 알고리즘을 알지 못하고 위의 4 점을 재발견한다는 점에서 Jed Brown의 요점의 예입니다.)

편집 2 : 얼마나 멀리 갈 수 있는지 표시하기 위해 http://arxiv.org/pdf/1509.03616v1.pdf의 5 페이지를 참조하십시오 .


두 번째 단락이 내가 묻고 자하는 질문에 가장 직접적으로 답변하기 때문에이 답변을 수락하지만 Jed Brown의 답변도 마음에 들었습니다.
Andrew T. Barker

13

나는 당신이 여기에 적어 둔 정확한 공식을 보지 못했지만 사람들이 일시적인 시스템을 통합하는 것과의 연관성을 "재발견"하고 대수적으로 하나의 형태 또는 기존의 그라데이션 하강 또는 뉴턴과 같은 방법 중 하나이며 다른 사람을 인용하지 않습니다. 결론은 기본적으로 "충분히 작은 단계를 거치면 그 방법은 지역 최소 수준으로 수렴된다"는 결론이기 때문에 매우 유용하지 않다고 생각합니다. 글쎄, 2014 년은 필립 울프 (Philip Wolfe)의 논문 45 주년을 원칙으로하는 방법을 보여줍니다. 유사 과도 연속 및 Levenberg-Marquardt와 같은 관련 방법을 통해 q-Quadratic 또는 Q-Superlinear Convergence를 얻는 좋은 이론도 있습니다.

600 개 이상의 논문이있는 수학자의 대수 방정식 (즉, 고전적인 의사 과도 연속)을 풀기 위해 뉴턴과 같은 공식을 사용하여이 재발견의 사례를 원한다면 "아마도 흥미로운 것을 발견 할 것입니다." AG Ramm의 동적 시스템 방법 "[1].

과도 시스템을 고려하여 얻은 직관이 더 빠르거나 더 신뢰할 수있는 실용적인 알고리즘을 이끌어 냈다면, 그 주제에 대한 기사가 많이 나온 것 같습니다. Nocedal과 Wright가 13000 회 이상 인용 한 반면 Ramm의 책에는 약 80 개 (주로 자기 인용)가 있습니다.

[1] 램 교수에게 그의 DSM이 수십 년 동안 수많은 엔지니어링 패키지에 포함 된 것과 대수적으로 동등하다는 것을 알리지 말라고 조언 할 수 있습니다. #gradstudentmemories


3
제드!
Bill Barth

0

ODE 방법이 최적화에 기여할 수 있다면 이것을 보여주는 간단한 문제가 있습니까?
짚맨 : 합리적인 작업을 수행하는 ODE 솔버가 있습니까?
엑스˙=에프(엑스)
엑스¨=β엑스˙α에프(엑스)  
에프

실제로, "너무 큰"단계는 "너무 작은"보다 훨씬 더 문제가 많습니다. 진동이 지저분합니다.
나는 제어 이론이 도움이 될 수 있다고 순진하게 생각했을 것입니다. 수치 레시피 p. 915는 ODE에 대한
PI 적응 단계 화 제어 를 설명 하지만 이것이 실제로 사용되는지는 모르겠습니다.


새 질문을 답변으로 게시하는 것으로 보입니다. 접선 적으로 관련된 질문은 별도의 질문 또는 주어진 답변에 대한 의견으로 게시해야합니다.
Paul

@Paul, 이것은 전혀 의미가 있습니까? 그렇다면 새로운 질문에 대한 제목을 제안 해 주시겠습니까?
데니스

혼란 스러워요. 틀릴 수도 있지만 귀하의 답변이 실제로 OP의 질문이 아닌 것 같습니다. 전달하려는 메시지는 정확히 무엇이며 원래 질문과 어떤 관련이 있습니까?
Paul

@Paul, 죄송합니다. 확실하지 않습니다. 내가 이해하는 질문은 특정 최적화 문제와 시간 단계 일명 ODE 솔버 간의 관계를 묻습니다. Christian Clason은 그래디언트 디센트와 특정 ODE 솔버 (앞으로-오일러) 사이의 직접적인 관계를 지적합니다. 나는 간단한 테스트 함수 f ()가 무엇인지 언급한다. 최소 f ()쪽으로 움직이는 ODE 솔버 보여주는 무엇입니까?
데니스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.