라인 검색과 트러스트 리전 방법이 스케일링을 처리하는 방법에는 약간의 차이가있을 수 있지만 실제로 스케일링을 알고있는 한 실제로 검색되지는 않습니다. 분명히, Nocedal and Wright 책은 아핀 스케일링에 대해 이야기하고있었습니다. 비선형 스케일링은 정량화하기가 다소 까다 롭습니다.
이유를 확인하려면, 우리는 최소화하고 싶은 말은 , 그러나 우리는 정칙, 자기 수반 행렬 연산자의 일종 변수를 확장 할 ∈ L ( X ) . J : X → R 을 스케일 목적 함수로 정의하십시오 . 그런 다음
J ( x ) = f ( A x ) ∇ J ( x ) = A ∇ f ( A x ) ∇ 2 J ( x )에프: X→ RA ∈ L( X)제이: X→ R
알고리즘의 실제 차이는 스케일링A에발생하는 것입니다. 뉴턴 방법에서는 해결
∇2J(X)δX=-∇J(X)
또는
∇2F(X)δX=-∇F(경우 →X)
헤센가 정칙 가정하고, 우리가를
ㅏ
제이( x ) =∇ J( x ) =∇2제이( x ) =에프( A x )A ∇ f( A x )∇2에프( A x ) A
ㅏ∇2제이( x ) δx = − ∇ J( x )
∇2에프( A x ) A δx = − A ∇ f( A x )
기본적으로 스케일링이 취소되고 사라 지므로 방향에 영향을 미치지 않습니다. 그것이 우리가 뉴턴의 방법이 아핀 스케일 불변이라고 말하는 이유입니다.
A δx = − ∇2에프( A x )− 1∇ f( A x )
자 이제 우리에게 헤 시안이 없다고 가정 해 봅시다. 정말로, 하루의 끝에서, 신뢰 영역 방법은 시스템에 의존 해결
독일인 근사 어떤 종류 H . 대부분의 경우 Steihaug-Toint truncated-CG는 잘 작동하기 때문에 사용할 것입니다. 스케일링을 다시 연결하면
H δ x = − A ∇ f ( A x )
가됩니다.이 시스템에서 CG를 던지면 스케일링 A 를 처리 할 수있는 툴이 하나 있다는 뜻입니다 .
Hδx = − ∇ J( x )
HHδx = − A ∇ f( A x )
ㅏ이것이 Hessian 또는 근사치
입니다. 이론적으로, 우리는 신뢰 지역의 형태를 바꿀 수 있지만, 실제로 의미하는 것은 우리의 발걸음을 앞뒤로 끊는 것입니다. 이것은 단계에 영향을 주지만 항상 통제하기가 어렵다는 것을 알았습니다.
H
ϕ
δx = ϕ ( − A ∇ f( A x ) )
ϕϕϕㅏ
자,이 도구들은 무엇이며이를 사용해야합니까? 개인적으로 대답은 '아니오'라고 생각합니다. 응용 프로그램을 실제로 알고 있고 솔루션을 찾기위한 특수 알고리즘이없는 한 부정확 한 Newton 메서드는 실제로 잘 작동합니다. 부정확 한 뉴턴으로, 나는 시스템 푸는 것을 의미합니다
∇2제이( x ) δx = − ∇ J( x )
CG를 잘못 사용했습니다. 트러스트 영역 설정 (Nocedal and Wright의 171 페이지) 또는 라인 검색 (Nocedal and Wright의 169 페이지)에 Newton-CG에서 Steihaug-Toint를 정확하게 사용하고 있습니다. 그들은 거의 동일하게 작동하며 아핀 스케일링에 신경 쓰지 않습니다. 또한 Hessian을 저장할 필요가 없으며 Hessian-vector 제품 만 필요합니다. 실제로 이러한 알고리즘은 대부분의 문제에서 가장 중요한 도구이며 아핀 스케일링에는 신경 쓰지 않습니다.
트러스트 영역 문제의 전제 조건에 관해서는 전반적인 최적화 반복 횟수를 향상 시킬지 여부를 미리 알 수있는 방법이 없다고 생각합니다. 실제로 하루가 끝나면 최적화 방법은 두 가지 모드로 작동합니다. 모드 1에서, 우리는 뉴턴의 수렴 반경에서 너무 멀어서, 우리는 세계화하고 반복자들이 목표가 무너 지도록 강제합니다. 신뢰 지역은 한 가지 방법입니다. 라인 검색은 또 다른 것입니다. 모드 2에서, 우리는 뉴턴의 방법 수렴 반경에 있습니다. 그래서 우리는 그것을 엉망으로 만들지 않고 뉴턴의 방법이 일을하도록합니다. 실제로, 우리는 신뢰 영역 방법과 같은 것들의 수렴 증거에서 이것을 볼 수 있습니다. 예를 들어 정리 4.9 (Nocedal and Wright의 p.93)를보십시오. 매우 명확하게, 그들은 trust-region이 어떻게 비활성화되는지를 설명합니다. 이와 관련하여 전제 조건의 유용성은 무엇입니까? 확실히, 우리가 뉴턴의 방법 수렴 반경에있을 때, 우리는 훨씬 적은 작업을 수행하고 CG 반복 횟수는 줄어 듭니다. 이 반경을 벗어나면 어떻게됩니까? 종류에 따라 다릅니다. 전체 뉴턴 단계를 계산하면 작업이 줄어든다는 이점이 있습니다. 잘린 CG에서 잘림으로 인해 단계를 일찍 중단하면 Krylov 하위 공간으로 향하게됩니다.
{ − P∇ J( x ) , − ( PH) ( P∇ J( x ) ) , … , − ( PH)케이( P∇ J( x ) ) }
피H{ − ∇ J( x ) , - ( H) ( ∇ J( x ) ) , … , - ( H)케이( ∇ J( X ) ) } ?
그렇다고 훌륭한 전제 조건을 정의 할 가치가 없다는 의미는 아닙니다. 그러나 누군가 뉴턴의 방법 수렴 반경에서 떨어진 점에 대한 최적화를 지원하기 위해 사전 조건을 어떻게 정의하는지 잘 모르겠습니다. 일반적으로, 우리는 헤센 근사치의 고유 값을 모으기위한 전제 조건을 설계합니다. 이는 헤아릴 수없는 측정 가능한 목표입니다.
tldr; 실제로는 라인 검색 방법이 트러스트 영역 방법보다 반복을 생성하는 다양한 방법이 있으므로 아핀 스케일링을 처리하는 놀라운 방법이 있습니다. 그러나 부정확 한 뉴턴 방법 만 사용하면 문제가되지 않습니다. 프리 컨디셔너는 뉴턴의 방법 수렴 반경을 벗어난 알고리즘의 성능에 영향을 주지만 방법을 정량화하기는 어렵 기 때문에 Hessiasn 근사값의 고유 값을 클러스터링하기위한 프리 컨디셔너를 설계하기 만하면됩니다.