KKT를 사용하여


11

참고 문헌에 따르면 1 권 , 2 권종이 .

정규화 된 회귀 (Ridge, LASSO 및 Elastic Net)와 제약 조건 간에는 동등한 내용이 언급되어 있습니다.

Cross Validated 1Cross Validated 2 도 살펴 보았지만 그 동등성 또는 논리에 대한 명확한 답변을 볼 수는 없습니다.

내 질문은

Karush–Kuhn–Tucker (KKT)를 사용하여 동등성을 표시하는 방법은 무엇입니까?

다음 공식은 릿지 회귀에 대한 것입니다.

산등성이

노트

이 질문은 숙제가 아닙니다. 이 주제에 대한 나의 이해를 높이는 것입니다.

최신 정보

아직 아이디어가 없습니다.


왜 둘 이상의 답변이 필요합니까? 현재 답변은 질문을 포괄적으로 다루는 것으로 보입니다. 최적화 방법에 대한 자세한 내용을 보려면 Convex Optimization Lieven Vandenberghe와 Stephen P. Boyd를 시작하는 것이 좋습니다.
Sycorax는 Reinstate Monica가

@Sycorax, 귀하의 의견과 저에게 제공 한 책에 감사드립니다. 대답은 명확하지 않으며 더 자세한 설명을 요구할 수 없습니다. 따라서 하나 이상의 답변으로 다른 관점과 설명 방법을 볼 수 있습니다.
jeza

@ jeza, 내 대답에 무엇이 빠졌습니까?
Royi

1
사진을 올리지 말고 텍스트로 질문을 입력하십시오 ( 여기 참조 ).
gung-복직 모니카

답변:


10

보다 기술적 인 대답은 제한된 최적화 문제를 Lagrange multiplier로 작성할 수 있기 때문입니다. 특히, 제한된 최적화 문제와 관련된 라그랑지안L ( β ) = a r g m i n β 로 주어진다.

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
여기서μ는 문제의 제약 조건을 충족시키기 위해 선택된 승수입니다. 따라서이 최적화 문제에 대한 1 차 조건 (좋은 볼록 함수로 작업하기 때문에 충분 함)은 β 와 관련하여 Lagrangian을 차별화 하고 미분을 0으로 설정 함으로써 얻을 수 있습니다 (LASSO 이후 조금 더 미묘한 차이가 있습니다) 부분은 구별 할 수없는 점이 있지만 , 1 차 조건이 여전히 작동하도록 미분을 일반화하는 볼록한 분석 방법 이 있습니다). 이러한 1 차 순서 조건은 기록한 제한되지 않은 문제의 1 차 조건과 동일합니다.

그러나 왜 이러한 최적화 문제로 인해 제한된 최적화 문제의 렌즈 또는 제한되지 않은 문제의 렌즈를 통해 문제에 대해 생각할 수 있는지를 아는 것이 유용하다고 생각합니다. 보다 구체적으로, 다음과 같은 형식의 제한없는 최적화 문제가 있다고 가정합니다.

maxxf(x)+λg(x)
우리는 항상이 최적화를 직접 시도 할 수 있지만 때로는이 문제를 하위 구성 요소로 나누는 것이 합리적 일 수 있습니다 . 특히, 따라서 고정 값은
최대엑스에프(엑스)+λ(엑스)=최대(최대엑스에프(엑스) 에스. (엑스)=)+λ
λ (그리고 최적화 될 함수가 실제로 최적을 달성한다고 가정하면) 외부 최적화 문제를 해결 하는 값 와 연결할 수 있습니다 . 이것은 우리에게 제한되지 않은 최적화 문제에서 제약 문제까지의 일종의 매핑을 제공합니다. 특정 설정에서 모든 것이 순 순 회귀에 적합하게 작동하기 때문에이 매핑은 실제로 일대일이어야하므로 특정 응용 프로그램에 더 유용한 것에 따라이 두 컨텍스트간에 전환 할 수 있으면 유용합니다. 일반적으로 구속 된 문제와 제한되지 않은 문제 사이의 관계는 잘 작동하지 않을 수 있지만 제약 된 문제와 제한되지 않은 문제 사이에서 어느 정도 이동할 수 있는지 생각하는 것이 여전히 유용 할 수 있습니다.

편집 : 요청에 따라 능선 회귀 분석에 대한보다 구체적인 분석을 포함시킵니다. 왜냐하면 LASSO 페널티의 미분과 관련된 기술을 다루지 않으면 서 주요 아이디어를 포착하기 때문입니다. 우리는 최적화 문제를 (행렬 표기법으로) 해결하고 있습니다.

아르 자형미디엄나는β{나는=1와이나는엑스나는β}에스..||β||2미디엄

하자 OLS 솔루션을 수 (즉, 아무런 제약이없는 경우). 그런 다음그렇지 않으면 제약 조건이 바인딩되지 않기 때문에 흥미롭지 않습니다. 이 문제에 대한 Lagrangian은 그러면 미분 하면 첫 번째 주문 조건이 나타납니다. 는 선형 방정식 시스템이므로 해결할 수 있습니다. β영형에스미디엄<||β영형에스||

(β)=아르 자형미디엄나는β{나는=1와이나는엑스나는β}μ||β||2미디엄
0=2(나는=1와이나는엑스나는+(나는=1엑스나는엑스나는+μ나는)β)
β^=(나는=1엑스나는엑스나는+μ나는)1(나는=1와이나는엑스나는)
multiplier 선택하십시오 . 그런 다음 제약 조건을 충족시키기 위해 승수를 간단히 선택합니다.μ

((나는=1엑스나는엑스나는+μ나는)1(나는=1와이나는엑스나는))((나는=1엑스나는엑스나는+μ나는)1(나는=1와이나는엑스나는))=미디엄
은 에서 단조이기 때문에 존재합니다 . 이 방정식은 승수 에서 제약 조건 으로의 명시 적 매핑을 제공합니다 . 와 함께 RHS가 존재하고 때이 매핑은 실제로 매우 직관적 인 것입니다. 봉투 정리는 우리에게 그μμ(0,)미디엄(0,||β영형에스||)
μ0미디엄(μ)=||β영형에스||
μ미디엄(μ)=0
μ(미디엄)제약 조건 의 작은 완화로 인해 발생하는 오차의 한계 감소에 해당합니다 . 이것은 이. 구속 조건이 구속력이 없으면 더 이상 이완 할 가치가 없으므로 승수가 사라집니다.미디엄μ0미디엄||β영형에스||


가능한 경우 실제 사례를 통해 단계별로 자세한 답변을 제공해 주시겠습니까?
jeza

많은 감사, 왜 KKT를 언급하지 않습니까? 나는이 분야에 익숙하지 않기 때문에 고등학생으로 대합니다.
jeza

이 경우 KKT 조건은 Lagrangian을 차별화하고 미분을 0으로 설정하여 언급 한 "1 차 조건"의 일반화입니다.이 예에서 제약 조건이 동일하게 유지되므로 KKT 조건이 필요하지 않습니다. 일반적으로 가득합니다. 더 복잡한 경우에 발생하는 모든 것은 위의 일부 등식이 불평등이되고 제약 조건이 구속력이없는 경우 승수가 0이되는 것입니다. 예를 들어,위의. 미디엄>||β영형에스||
stats_model

3

그의 답변stats_model 에 의한 훌륭한 분석이 있습니다 .

나는 Ridge Regression의 등가 공식 증명 에서 비슷한 질문에 하려고 노력했다 .


λ

마찬가지로 내가 쓴 과에서 볼 수 stats_model 에서 자신의 분석 매핑 데이터에 따라 달라집니다. 따라서 우리는 문제의 구체적인 실현을 선택합니다. 그러나 코드와 솔루션을 스케치하면 상황에 직관이 추가됩니다.

다음 두 모델을 비교해 보겠습니다.

정규화 된 모델 : 인수엑스12엑스와이22+λ엑스22

구속 된 모델 : 인수엑스12엑스와이22에 따라엑스22

가 정규화 된 모델의 솔루션이고 가 제한된 모델의 솔루션 이라고 가정합시다 .엑스^엑스~

우리는 와 같이 에서 로의 매핑을보고 있습니다. Norm Constraint Least Squares에 대한 솔버에 대한 솔루션 을 살펴보면 Constrained Model을 해결하려면 정규 모델을 해결 하고 와 일치하는 를 찾는 것을 볼 수 있습니다 (실제 코드는 Euclidean ( ) 규범 구속 조건 ).λ엑스^=엑스~
λ2

따라서 동일한 솔버를 실행하고 각 에 대해 최적의 표시합니다 .λ

솔버는 기본적으로 다음을 해결합니다.

인수λλ에 따라(+2λ나는)122=0

여기 매트릭스가 있습니다 :

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

그리고 여기 우리의 벡터가 있습니다 :

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

이것은 매핑입니다.

여기에 이미지 설명을 입력하십시오

위에서 볼 수 있듯이, 값이 충분히 높으면 예상대로 매개 변수 가 사용됩니다.λ=0

[0, 10] 범위로 확대 :

여기에 이미지 설명을 입력하십시오

전체 코드는 내 StackExchange Cross Validated Q401212 GitHub 리포지토리 에서 사용할 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.