좌표 하강 법의 이론적 연구


14

최적화를 위해 휴리스틱에 대한 강의 자료를 준비 중이며 좌표 하강 방법을 살펴보고 있습니다. 여기서 설정은 최적화하려는 다변량 함수 입니다. 는 단일 변수로 제한되는 특성을 가지며 최적화하기 쉽습니다. 따라서 좌표 하강은 좌표를 순환하면서 선택된 것을 제외한 모든 것을 고정하고 해당 좌표를 따라 최소화함으로써 진행됩니다. 결국 개선이 멈춰서 종료됩니다.ff

내 질문은 : 수렴 속도에 대해 이야기하는 좌표 하강 방법과 방법이 잘 작동하도록 속성에 대한 이론적 연구가 있습니까? 분명히, 나는 일반적인 대답을 기대하지는 않지만 휴리스틱이 잘되는 경우를 비추는 답변이 도움이 될 것입니다.f

따로 : 평균에 사용되는 대체 최적화 기법 은 좌표 하강의 예로 볼 수 있으며 Frank-Wolfe 알고리즘 은 관련이 있습니다 (그러나 프레임 워크의 직접적인 예는 아님).k


최소한 Ken Clakrson의 논문 kenclarkson.org/sga/p.pdf에 설명 된 것처럼 Frank-Wolfe는 매우 유사합니다. 유일한 차이점은 FW에서 내림차순으로 가장 좋은 좌표를 선택한다는 것입니다. matus가 언급 한 것과 같은 희소성이 있습니다.
Sasho Nikolov

2
Sebastien Bubeck은 최근 다양한 방법에 대한 볼록 최적화 및 반복 복잡성에 대한 논문을 보유하고 있습니다. 보기에 유용한 장소 일 수 있습니다. blogs.princeton.edu/imabandit/2014/05/16/…
Chandra Chekuri

답변:


24

(메모 편집 : 길이를 놀라게 한 후에 이것을 재구성했습니다.)

좌표 하강에 관한 문헌은 찾기가 조금 어려울 수 있습니다. 여기 몇 가지 이유가 있습니다.

  1. 좌표 방법의 알려진 많은 속성은보다 일반적인 하강 방법에 대한 우산 정리로 표현됩니다. 이 아래의 두 가지 예는, (임의의 보류중인 강한 볼록 빠른 수렴되어 최대 경사) 및 (일반적 Zoutendijk에 의한) 이러한 방법의 일반적인 수렴.lp

  2. 명명은 표준이 아닙니다. "가장 빠른 하강"이라는 용어조차 표준이 아닙니다. "사이클 좌표 하강", "좌표 하강", "Gauss-Seidel", "Gauss-Southwell"이라는 용어를 성공적으로 검색했을 수 있습니다. 사용이 일관되지 않습니다.

  3. 순환 변형은 특별한 언급을 거의받지 않습니다. 대신, 일반적으로 최상의 단일 좌표 선택 만 논의됩니다. 그러나 이것은 추가 인자 (변수 수) 이 있더라도 거의 항상 주기적 보증을 제공합니다 . 이는 대부분의 수렴 분석이 단일 단계의 개선을 하한으로 진행하기 때문에 추가 좌표를 무시할 수 있기 때문입니다. 또한 주기적이 당신을 사주는 것에 대해 일반적인 것을 말하기가 어려워서 사람들이 가장 잘 조정하고 n 인자를 확인할 수 있습니다.nn

강한 볼록한 상태에서 평가하십시오. 가장 간단한 경우는 목적 함수가 볼록한 것입니다. 여기서 모든 기울기 하강 변형은 비율을 갖습니다 . 이것은 Boyd & Vandenberghe의 책에서 입증되었습니다. 증명은 제 그래디언트 디센트에 대한 결과를 제공하고 일반적 대한 결과 수득 규범 당량 사용 L P의 가파른 하강한다.O(ln(1/ϵ))lp

제약 사항. 강한 볼록성이 없으면 약간 조심해야합니다. 제약 조건에 대해 아무 말도하지 않았으므로 일반적으로 부정한 것을 얻을 수 없습니다. 표준 접근 방식 (강하 방법 포함)이 타당성을 유지하기 위해 각 반복을 설정하거나 제한을 목표 함수에 롤링하기 위해 장벽을 사용하는 제약 조건에 대해 간략하게 설명하겠습니다. 전자의 경우, 나는 그것이 좌표 하강에서 어떻게 작동하는지 모른다. 후자의 경우 좌표 하강으로 잘 작동 하며이 장벽은 강하게 볼록 할 수 있습니다.

보다 구체적으로, 투영보다는 방법을 조정하기 위해 많은 사람들이 단순히 좌표 업데이트를 실현 가능성으로 유지합니다. 예를 들어 Frank-Wolfe 알고리즘과 그 변형 (예 : SDP를 해결하는 데 사용)과 정확히 일치합니다.

또한 SVM에 대한 SMO 알고리즘은 두 개의 변수를 한 번에 업데이트하고 타당성 제약 조건을 유지하는 좌표 하강 방법으로 볼 수 있습니다. 변수의 선택은이 방법에서 휴리스틱하므로 보증은 실제로 순환 보증입니다. 이 연결이 표준 문헌에 나타나는지 확실하지 않습니다. Andrew Ng의 강의 노트에서 SMO 방법에 대해 배웠고 매우 깨끗하다는 것을 알았습니다.

일반적인 수렴 보장. 이보다 일반적인 설정 (좌표 하강)에서 내가 아는 것은 훨씬 약합니다. 첫째, Zoutendijk에 따르면 이러한 모든 그라디언트 변형이 수렴을 보장한다는 고대 결과가 있습니다. 이 책은 Nocedal & Wright의 저서에서 찾을 수 있으며 Bertsekas의 저서 중 일부에도 나타납니다 (최소한 "비선형 프로그래밍"에 있음). 이 결과는 다시 좌표 하강보다 더 일반적인 것에 대한 것이지만 하강을 조정하도록 특수화 한 다음 을 곱하여 순환 부분을 얻을 수 있습니다.n

O(ln(1/ϵ))

좌표 하강에 대한 최근 결과가 더 있습니다. arXiv에서 물건을 보았습니다. 또한 luo & tseng에는 최신 논문이 있습니다. 그러나 이것은 주요한 것입니다.

i=1mg(ai,λ)g(ai)1mλexp(1/ϵ2)O(1/ϵ)

정확한 업데이트 문제. 또한 닫힌 단일 좌표 업데이트가없는 경우가 종종 있습니다. 또는 정확한 해결책이 존재하지 않을 수 있습니다. 그러나 운 좋게도 정확한 솔루션과 기본적으로 동일한 보장을받는 수많은 라인 검색 방법이 있습니다. 이 자료는 표준 비선형 프로그래밍 텍스트, 예를 들어 위에서 언급 한 Bertsekas 또는 Nocedal & Wright 서적에서 찾을 수 있습니다.

두 번째 단락은 다음과 같습니다. 첫째, 좌표 하강에 대한 기울기 작업에 대해 위에서 언급 한 많은 분석이 있습니다. 왜 항상 좌표 하강을 사용하지 않습니까? 그에 대한 해답은 경사 하강이 적용 가능한 많은 문제에 대해 뛰어난 수렴이 입증 될 수있는 뉴턴 방법을 사용할 수도 있다는 것입니다. 좌표 하강으로 뉴턴의 이점을 얻는 방법을 모르겠습니다. 또한 Quasinewton 업데이트를 통해 높은 비용의 Newton 분석법을 완화 할 수 있습니다 (예 : LBFGS 참조).

0케이케이케이케이에프


2
와. 정말 포괄적 인 답변입니다. 감사 !
Suresh Venkat


2

우리는 방금 최적화 문제에 대한 "통계 알고리즘"에 대한 일반적인 하한을 입증 하는 arXiv ( http://arxiv.org/abs/1201.1214 ) 에 대한 논문을 작성했으며 각 "문제"는 다양한 속성.

좌표 하강 (및 우리가 생각할 수있는 거의 모든 것)은 프레임 워크에서 통계 알고리즘으로 볼 수 있으므로이 백서에 유용한 결과가 있기를 바랍니다.


멋있는. 그것을 조사 할 것입니다.
Suresh Venkat

2

최적화에서 "수렴 률"은 일반적으로 점근 적 동작을 의미합니다. 즉, 요금은 최적의 솔루션 주변에만 적용됩니다. 그런 의미에서 Luo & Tseng은 "볼록한 미분 최소화를위한 좌표 하강 방법의 수렴"이라는 논문에서 강력하지 않은 볼록 목적 함수에 대한 선형 수렴 률을 입증했습니다.

비 점근 수렴 률, 즉 "반복 복잡성"은 일반적으로 반복 알고리즘의 반복 횟수를 제한하는 데 더 유용합니다. 볼록한 목적 함수의 경우 순환 좌표 하강 방법의 반복 복잡성이 Luo & Tseng의 오차 범위 및 실행 가능한 하강 방법의 수렴 분석에 이미 표시되어 있습니다. 글로벌 오차 범위가 사용되는 경우의 일반적인 접근 방식 입니다. 볼록하지 않은 볼록 문제의 경우 볼록 최적화를위한 실행 가능한 하강 방법의 반복 복잡성에 새로운 결과가 있습니다.. 구체적으로, 우리는 이중 형태의 SVM 및 Gauss-Seidel 방법과 같은 문제에서 순환 좌표 강하 방법의 반복 복잡성을 보여주었습니다. 또한, 결과는 구배 하강 및 친구를 포함한 다른 가능한 하강 방법도 포함합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.