라인 검색 및 신뢰 영역 알고리즘에 대한 스케일 불일치


11

Numerical Optimization에 대한 Nocedal & Wright의 저서에는 섹션 2.2 (27 페이지)에 "일반적으로 트러스트 영역 알고리즘보다 라인 검색 알고리즘의 스케일 불변을 유지하는 것이 더 쉽다"는 내용이 있습니다. 동일한 섹션에서 원래 변수의 스케일 버전 인 새 변수를 갖는 방법에 대해 설명합니다. 이는 줄 검색 및 신뢰 영역 모두에 도움이 될 수 있습니다. 다른 접근 방식은 사전 조정입니다. 트러스트 영역 방법의 경우 전제 조건은 타원형 트러스트 영역을 갖는 것과 동일하므로 규모 불변성을 제공합니다. 그러나 라인 검색의 사전 조건에 대해 유사한 직관이 명확하지 않습니다. 스케일 검색에 어떤 방법으로 라인 검색이 더 적합합니까? 실용적인 고려 사항이 있습니까?

또한 트러스트 영역 방법의 전제 조건에 관한 질문이 있습니다. 조건이 좋지 않은 문제의 경우, 좋은 전제 조건이 외부 뉴턴 반복 횟수와 내부 CG 반복 횟수를 줄이거 나 후자 만 줄입니까? 트러스트 영역은 원래 공간에서 타원체이므로 좋은 사전 조건자는 풍경과 더 잘 일치하는 타원체로 이어져야합니다. 알고리즘이 더 나은 방향을 취하도록하여 외부 뉴턴 반복 횟수를 줄일 수 있다고 생각합니다. 이게 옳은 거니?

답변:


2

라인 검색과 트러스트 리전 방법이 스케일링을 처리하는 방법에는 약간의 차이가있을 수 있지만 실제로 스케일링을 알고있는 한 실제로 검색되지는 않습니다. 분명히, Nocedal and Wright 책은 아핀 스케일링에 대해 이야기하고있었습니다. 비선형 스케일링은 정량화하기가 다소 까다 롭습니다.

이유를 확인하려면, 우리는 최소화하고 싶은 말은 , 그러나 우리는 정칙, 자기 수반 행렬 연산자의 일종 변수를 확장 할 L ( X ) . J : X R 을 스케일 목적 함수로 정의하십시오 . 그런 다음 J ( x ) = f ( A x ) J ( x ) = A f ( A x ) 2 J ( x )에프:엑스아르 자형(엑스)제이:엑스아르 자형 알고리즘의 실제 차이는 스케일링A에발생하는 것입니다. 뉴턴 방법에서는 해결 2J(X)δX=-J(X) 또는 2F(X)δX=-F(경우 →X) 헤센가 정칙 가정하고, 우리가를

제이(엑스)=에프(엑스)제이(엑스)=에프(엑스)2제이(엑스)=2에프(엑스)
2제이(엑스)δ엑스=제이(엑스)
2에프(엑스)δ엑스=에프(엑스)
기본적으로 스케일링이 취소되고 사라 지므로 방향에 영향을 미치지 않습니다. 그것이 우리가 뉴턴의 방법이 아핀 스케일 불변이라고 말하는 이유입니다.
δ엑스=2에프(엑스)1에프(엑스)

자 이제 우리에게 헤 시안이 없다고 가정 해 봅시다. 정말로, 하루의 끝에서, 신뢰 영역 방법은 시스템에 의존 해결 독일인 근사 어떤 종류 H . 대부분의 경우 Steihaug-Toint truncated-CG는 잘 작동하기 때문에 사용할 것입니다. 스케일링을 다시 연결하면 H δ x = A f ( A x ) 가됩니다.이 시스템에서 CG를 던지면 스케일링 A 를 처리 할 수있는 툴이 하나 있다는 뜻입니다 .

Hδ엑스=제이(엑스)
H
Hδ엑스=에프(엑스)
이것이 Hessian 또는 근사치 입니다. 이론적으로, 우리는 신뢰 지역의 형태를 바꿀 수 있지만, 실제로 의미하는 것은 우리의 발걸음을 앞뒤로 끊는 것입니다. 이것은 단계에 영향을 주지만 항상 통제하기가 어렵다는 것을 알았습니다.H

ϕ

δ엑스=ϕ(에프(엑스))
ϕϕϕ

자,이 도구들은 무엇이며이를 사용해야합니까? 개인적으로 대답은 '아니오'라고 생각합니다. 응용 프로그램을 실제로 알고 있고 솔루션을 찾기위한 특수 알고리즘이없는 한 부정확 한 Newton 메서드는 실제로 잘 작동합니다. 부정확 한 뉴턴으로, 나는 시스템 푸는 것을 의미합니다

2제이(엑스)δ엑스=제이(엑스)
CG를 잘못 사용했습니다. 트러스트 영역 설정 (Nocedal and Wright의 171 페이지) 또는 라인 검색 (Nocedal and Wright의 169 페이지)에 Newton-CG에서 Steihaug-Toint를 정확하게 사용하고 있습니다. 그들은 거의 동일하게 작동하며 아핀 스케일링에 신경 쓰지 않습니다. 또한 Hessian을 저장할 필요가 없으며 Hessian-vector 제품 만 필요합니다. 실제로 이러한 알고리즘은 대부분의 문제에서 가장 중요한 도구이며 아핀 스케일링에는 신경 쓰지 않습니다.

트러스트 영역 문제의 전제 조건에 관해서는 전반적인 최적화 반복 횟수를 향상 시킬지 여부를 미리 알 수있는 방법이 없다고 생각합니다. 실제로 하루가 끝나면 최적화 방법은 두 가지 모드로 작동합니다. 모드 1에서, 우리는 뉴턴의 수렴 반경에서 너무 멀어서, 우리는 세계화하고 반복자들이 ​​목표가 무너 지도록 강제합니다. 신뢰 지역은 한 가지 방법입니다. 라인 검색은 또 다른 것입니다. 모드 2에서, 우리는 뉴턴의 방법 수렴 반경에 있습니다. 그래서 우리는 그것을 엉망으로 만들지 않고 뉴턴의 방법이 일을하도록합니다. 실제로, 우리는 신뢰 영역 방법과 같은 것들의 수렴 증거에서 이것을 볼 수 있습니다. 예를 들어 정리 4.9 (Nocedal and Wright의 p.93)를보십시오. 매우 명확하게, 그들은 trust-region이 어떻게 비활성화되는지를 설명합니다. 이와 관련하여 전제 조건의 유용성은 무엇입니까? 확실히, 우리가 뉴턴의 방법 수렴 반경에있을 때, 우리는 훨씬 적은 작업을 수행하고 CG 반복 횟수는 줄어 듭니다. 이 반경을 벗어나면 어떻게됩니까? 종류에 따라 다릅니다. 전체 뉴턴 단계를 계산하면 작업이 줄어든다는 이점이 있습니다. 잘린 CG에서 잘림으로 인해 단계를 일찍 중단하면 Krylov 하위 공간으로 향하게됩니다.

{제이(엑스),(H)(제이(엑스)),,(H)케이(제이(엑스))}
H
{제이(엑스),(H)(제이(엑스)),,(H)케이(제이(엑스))}?

그렇다고 훌륭한 전제 조건을 정의 할 가치가 없다는 의미는 아닙니다. 그러나 누군가 뉴턴의 방법 수렴 반경에서 떨어진 점에 대한 최적화를 지원하기 위해 사전 조건을 어떻게 정의하는지 잘 모르겠습니다. 일반적으로, 우리는 헤센 근사치의 고유 값을 모으기위한 전제 조건을 설계합니다. 이는 헤아릴 수없는 측정 가능한 목표입니다.

tldr; 실제로는 라인 검색 방법이 트러스트 영역 방법보다 반복을 생성하는 다양한 방법이 있으므로 아핀 스케일링을 처리하는 놀라운 방법이 있습니다. 그러나 부정확 한 뉴턴 방법 만 사용하면 문제가되지 않습니다. 프리 컨디셔너는 뉴턴의 방법 수렴 반경을 벗어난 알고리즘의 성능에 영향을 주지만 방법을 정량화하기는 어렵 기 때문에 Hessiasn 근사값의 고유 값을 클러스터링하기위한 프리 컨디셔너를 설계하기 만하면됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.