간단히 말해서 KKT


13

객관적인

KKT에 대한 이해가 올바른지 확인하십시오. KKT에 대한 자세한 설명과 확인을 받으십시오.

배경

KKT 조건, 특히 보완적인 조건을 이해하려고하면 SVM 기사에서 항상 파란색으로 나타납니다. 추상 수식 목록은 필요하지 않지만 구체적이고 직관적이며 그래픽적인 설명이 필요합니다.

질문

비용 함수 f (X)를 최소화하는 P가 제약 조건 (g (P)> = 0) 내에 있으면 솔루션입니다. 이 경우 KKT가 관련이없는 것 같습니다.

여기에 이미지 설명을 입력하십시오

KKT에 따르면 P가 제약 조건 내에 있지 않으면 솔루션 X가 그림에서 아래를 만족해야한다고합니다. KKT가 전부입니까, 아니면 다른 중요한 측면을 놓치나요?

여기에 이미지 설명을 입력하십시오

다른 설명

  1. KKT를 적용하려면 f (x)가 볼록해야합니까?
  2. KKT를 적용하려면 g (x)가 선형이어야합니까?
  3. λ * g (X) = 0에서 λ가 필요합니까? 왜 g (X) = 0 또는 g (Xi) = 0이 충분하지 않습니까?

참고 문헌


업데이트 1

답변에 감사하지만 여전히 이해하기가 어렵습니다. 여기서 만 필요성에 집중하십시오.

최적이 아닌 지점 (녹색 원)과 KKT에 대한 Matthew Gunn의 답변 (2) 조건이 충족되지 않습니까? 그리고 요점은 마크 L. 스톤의 대답에서와 같이 헤 시안을 살펴봄으로써 식별 될 것입니까?

나는 또 다른 상황이 안장이라고 가정하지만 동일하게 적용됩니까?

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오 사용자 23658


1
이 질문은 수학 사이트에서 더 많은 관심을 끌 수 있습니다. KKT 조건이 반드시 "통계적"인 것은 아닙니다. 통계 학자들은 흥미로운 통계적 문제를 해결하기 위해 수치 분석에서 이러한 결과와 다른 결과를 빌려 왔지만 이것은 수학 문제에 더 가깝습니다.
user23658

1
fg

2
λg(x)=0g(x)0g(x)<0xλλg(x)=0λλ>0

1
xx

답변:


8

xδfxx

최적화 문제가 있다고 상상해보십시오.

minimize (over x)f(x)subject toj{1k}gj(x)0

여기서 이고 제약 조건이 있습니다.xRnk

KKT 조건 및 Farkas Lemma

하자 의 기울기 나타내는 열 벡터 일 에서 평가 .f(x)fx

이 상황에 적용이 Farkas 보낸 보조 정리는 주장이 어떤 점에 대한 정확히 다음 설명 중 원하는 분야xRn

  1. 존재 이되도록 및λRkj=1kλjgj(x)=f(x)λ0
  2. 존재 되도록 과δRnjδgj(x)0δf(x)<0

이것은 무엇을 의미 하는가? 실행 가능한 포인트 에 대해 다음 중 하나를 의미합니다.x

  • 조건 (1)이 유지되고 KKT 조건이 충족됩니다.
  • 조건 (2)는 구속 조건 를 증가시키지 않고 목적 함수 를 향상시키는 방향 이 있습니다. (예 : 에서 로 이동 하여 를 향상시킬 수 있습니다 )δfgjfxx+ϵδ

조건 (1) 은 KKT 조건이 지점에서 충족되도록 음이 아닌 승수 있음을 나타 냅니다. (기하학적으로, 는 구속 조건의 그라디언트로 정의 된 볼록한 원뿔에 있다고합니다 .)λxf

조건 (2)는 지점에 과 같이 (로컬로) 이동 하는 방향이 있다고 말합니다.xδ

  • 방향으로 이동 하면 목적 함수가 줄어 듭니다 ( 의 내적 과 가 0보다 작기 때문에).δf(x)δ
  • 의 내적 과 의 내적 이 모두 0보다 때문에 방향으로 이동 해도 제약 조건의 값이 증가하지 않습니다. 제약 조건 ).δgj(x)δj

(형상으로, 가능한 방향 은 벡터 와 벡터 의해 정의 된 볼록한 원뿔 사이의 분리 초평면을 정의합니다 .δf(x)gj(x)

(참고 : 이것을 Farkas Lemma 에 매핑하려면 행렬 )A=[g1,g2,,gk]

이 주장은 KKT 조건의 필요성 (최적은 아님)을 최적으로 제공합니다. KKT 조건이 충족되지 않고 제약 조건 자격 조건이 충족되면 제약 조건을 위반하지 않고 목표를 개선 할 수 있습니다.

제한 조건의 역할

무엇이 잘못 될 수 있습니까? 구속 조건의 그라디언트가 실행 가능한 방향을 정확하게 설명하지 못하는 퇴화 상황을 얻을 수 있습니다.

위의 주장이 효과를 발휘할 수 있도록 다양한 제약 조건 을 선택할 수 있습니다.

최소, 최대 해석 (가장 직관적 임)

라그랑지안 형성

L(x,λ)=f(x)+j=1kλjgj(x)

제약 조건 따라 를 최소화하는 대신 , 일부 상대가이를 최대화하려고하는 동안 을 최소화하려고한다고 상상해보십시오 . 승수 를 제약 조건을 위반 한 페널티 (일부 상대가 선택한)로 해석 할 수 있습니다 . g j L λ ifgjLλi

원래 최적화 문제에 대한 솔루션은 다음과 같습니다.

minxmaxλL(x,λ)

그건:

  1. 먼저 를 선택 하여 Lagrangian 을 최소화하십시오 .xL
  2. 그런 다음 을 선택하여 라그랑지안을 최대화합니다 (선택한 ).λx

예를 들어, 제약 조건 을 위반 하면 를 무한대 로 설정하여 불이익을 줄 수 있습니다 !g2λ2

약한 이중성

함수 대해 다음을 관찰하십시오.f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

이는 및 대해 보유하므로 다음과 같이 보유합니다. x^y^

maxyminxf(x,y)minxmaxyf(x,y)

Langrian 설정에서이 결과는 은 약한 이중성으로 알려져 있습니다.maxλminxL(x,λ)minxmaxλL(x,λ)

이중 문제 은 솔루션에 대한 하한을 제공합니다maxλminxL(x,λ)

강한 이중성

특정 특수 조건 (예 : Slater 조건이 유지되는 볼록한 문제)에서는 강한 이중성이 있습니다 (예 : 새들 포인트 속성).

maxλminxL(x,λ)=minxmaxλL(x,λ)

이 아름다운 결과는 문제의 순서를 바꿀 수 있음을 의미합니다.

  1. 먼저 라그랑지안을 극대화하기 위해 페널티를 선택 합니다.λ

  2. 그런 다음 를 선택 하여 Lagrangian 을 최소화하십시오 .xL

이 프로세스에서 설정 한 는 제한 조건을 위반하는 가격이며, 제한 조건을 위반하지 않도록 가격이 설정됩니다.λ


이해의 격차를 메우기 위해 정보와 링크를 이해하십시오. 확인하겠습니다. 조건 (1)은 KKT가 점 X가 솔루션이라고 말하고 λ * g (X) = 0, λ> = 0을 만족해야하며 g (X)의 기울기 길이는 λ 배입니다. f (X)의 구배, 그렇지 않으면 더 작은 f (X ')를 찾을 수있는 f (X) 점 방향의 구배를 찾을 수 있습니까?

3
슬래 터 조건은 볼록 최적화 문제에 적용 할 수있는 제약 조건입니다. 즉 KKT가 필요합니다. 볼록 함은 KKT를 충분하게 만듭니다. 따라서 목적 함수와 제약 조건이 볼록하고 지속적으로 차별화되는 볼록 최적화 문제에 대한 Slater 조건은 KKT가 글로벌 최소값에 필요하고 충분하도록 만듭니다. 더 느린 조건은 모든 비선형 구속 조건의 엄격한 내부에있는 실행 가능한 지점이 하나 이상 (즉, 모든 구속 조건을 만족함) 있다는 것입니다 (가능한 모든 것이 선형 구속 조건과 함께 진행됨).
Mark L. Stone

5

볼록한 f (x)는 KKT가 x가 국소 최소값이되기에 충분해야합니다. f (x) 또는 -g (x)가 볼록하지 않은 경우 KKT를 만족하는 x는 로컬 최소값, 중철 점 또는 로컬 최대 값일 수 있습니다.

g (x)는 선형이며, f (x)는 지속적으로 미분 가능하며 KKT 조건이 국소 최소값에 필요하기에 충분합니다. g (x)가 선형 인 것은 KKT가 로컬 최소값을 유지해야하는 선형성 제약 조건이 충족됨을 의미합니다. 그러나 KKT 조건이 지역 최소값에 필요한만큼 덜 제한적인 제약 조건이 있습니다. https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions 의 규칙 조건 (또는 제약 조건) 섹션을 참조하십시오 .

지역 최소값에 "활성"구속 조건이없는 경우 (따라서 불평등 구속 조건 만있는 경우 해당 구속 조건이 동등성을 만족하지 않는 경우), 이러한 구속 조건과 연관된 라그랑주 승수는 0이어야합니다.이 경우 KKT는 다음 조건으로 감소합니다. 이러한 경우, 제약 조건의 엡실론 강화의 최적의 목표 값에 대한 "비용"이 0이다.

추가 정보 :

객관적인 기능과 제약은 볼록하고 지속적으로 차별화 할 수 있으므로 KKT는 전체 최소값으로 충분합니다.

목적 함수와 제약 조건이 지속적으로 차별화되고 제약 조건이 제약 조건 자격 조건을 충족하는 경우 KKT는 현지 최소값에 필요합니다.

객관적인 기능과 구속 조건이 지속적으로 구별 가능하고 볼록하며 구속 조건이 구속 조건 자격 조건을 충족하는 경우 KKT가 필요하며 전체 최소값에 충분합니다.

위의 논의는 실제로 1 차 KKT 조건에만 해당됩니다. 또한 2 차 KKT 조건이 있습니다. 1 차 KKT 조건을 만족하고 목적 함수와 제약이 두 배 연속적으로 차별화 될 수있는 점은 라그랑지안의 헤 시안이 활성 제약 조건의 야 코비안의 영 공간은 양의 반정의입니다. (이 문장에서 사용 된 용어를 찾아 보도록하겠습니다.) 를 활성 제약 조건의 야 코비안의 영 공간에 대한 기초로하자. 2 차 KKT 조건은 가 양의 반 정밀도라는 것입니다. 여기서Z T H Z H ZZZTHZH라그랑지안의 헤 시안입니다. 능동 구속 조건은 모든 동등 구속 조건과 고려중인 지점에서 동등으로 만족되는 모든 불평등 구속 조건으로 구성됩니다. 고려중인 1 차 KKT 점에서 구속 조건이 활성화되지 않은 경우, 항등 행렬은 영 공간 기준 이며 모든 라그랑주 승수는 0이어야합니다. 목적 함수의 Hessian은 양의 반 확정이다. 모든 구속 조건이 선형이면 선형 함수의 2 차 미분 값이 0이므로 Lagrangian의 Hessian = 목적 함수의 Hessian입니다.Z

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.