능선 회귀의 동등한 공식 증명


15

통계 학습에서 가장 인기있는 책을 읽었습니다

1- 통계 학습의 요소.

2- 통계 학습 소개 .

둘 다 능선 회귀에는 동등한 두 가지 공식이 있다고 언급합니다. 이 결과에 대해 이해할만한 수학적 증거가 있습니까?

나는 또한 Cross Validated를 겪었 지만 거기에서 확실한 증거를 찾을 수 없습니다.

또한 LASSO는 동일한 유형의 증명을 누릴 수 있습니까?

여기에 이미지 설명을 입력하십시오



1
올가미는 릿지 회귀의 형태가 아닙니다.
시안

@ jeza, 내 대답에 무엇이 빠졌는지 설명해 주시겠습니까? 그것은 실제로 연결에 관한 모든 것을 도출 할 수 있습니다.
Royi

@jeza, 구체적이 될 수 있습니까? 제한된 문제에 대한 Lagrangian 개념을 알지 못하면 간결한 대답을하기가 어렵습니다.
Royi

1
제한적인 최적화 문제인 @jeza는 현재 답변에서 설명 된 것처럼 Lagrangian 함수 / KKT 조건의 최적화로 변환 될 수 있습니다. 이 원칙은 인터넷을 통해 이미 많은 다른 간단한 설명을 가지고 있습니다. 증거에 대한 자세한 설명은 어떤 방향으로 필요합니까? 라그랑지안 승수 / 함수의 설명 / 증거, 라그랑 지 방법, 차이 KKT / 라그랑 지, 정규화 원리 설명과 관련된 최적화의 경우이 문제가 어떻게 발생하는지 설명 / 증명합니까?
Sextus Empiricus

답변:


19

고전적인 릿지 회귀 ( Tikhonov Regularization )는 다음과 같이 제공됩니다.

argminx12xy22+λx22

위의 주장은 다음과 같은 문제가 동일하다는 것입니다.

argminx12xy22subject tox22t

를 첫 번째 문제의 최적 솔루션으로 정의 하고 를 두 번째 문제의 최적 솔루션으로 정의하겠습니다 . x^x~

동등성 주장은 입니다. 즉, 항상 와 쌍을 가질 수 있으므로 문제의 해결책은 동일합니다.t,λ0:x^=x~
tλ0

우리는 어떻게 쌍을 찾을 수 있습니까?
문제를 해결하고 솔루션의 속성을 살펴 보는 것입니다.
두 문제 모두 볼록하고 매끄 럽기 때문에 일이 더 간단 해집니다.

첫 번째 문제에 대한 해결책은 그라디언트가 사라지는 지점에서 제공됩니다.

x^y+2λx^=0

두 번째 문제 의 KKT 조건 은 다음과 같습니다.

x~y+2μx~=0

μ(x~22t)=0

마지막 방정식은 또는 입니다.μ=0x~22=t

2 개의 기본 방정식이 동일하다는 점에주의하십시오.
즉, 및 두 방정식이 모두 유지됩니다. x^=x~μ=λ

따라서 하나는 설정해야합니다. 즉, 둘 다 동등하기 위해서는 충분히 큰 대해 설정해야합니다 .y22tμ=0tλ=0

다른 경우에는 찾으십시오 .μ

yt(I+2μI)1(I+2μI)1y=t

이것은 기본적으로x~22=t

그 를 찾으면 솔루션이 충돌합니다.μ

대하여 (LASSO) 경우는 물론, 같은 아이디어로 작동한다. 유일한 차이점은 솔루션을 위해 폐쇄하지 않았으므로 연결을 유도하는 것이 더 까다 롭다는 것입니다.L1

StackExchange Cross Validated Q291962StackExchange Signal Processing Q21730-Bais Pursuit에서 중요성에λ 대한 답변을 살펴보십시오 .

비고
실제로 어떤 일이 일어나고 있습니까?
두 문제 모두에서 는 가능한 한 가깝도록 노력합니다 . 첫 번째 경우 는 첫 번째 항 ( 거리)을 사라지게하고 두 번째 경우 목적 함수를 사라지게합니다. 차이점은 첫 번째 경우 Norm 균형을 유지해야한다는 것 입니다. 으로 높은 균형 수단을 얻을 당신이해야 작은. 두 번째 경우 벽이 있습니다. 를 더 가깝게 그리고 더 가깝게 가져옵니다.xy
x=yL2
L2xλx
xyt t y λ yNorm (By ) 의 제약 조건 인 벽을 칠 때까지 . 벽이 충분하고 ( 높은 값 ) 충분하고 의 규범에 의존 한다면 가 의 규범에 곱한 값에만 관련이 있는 것처럼 의미가 없습니다 . 정확한 연결은 위에서 언급 한 Lagrangian에 의한 것입니다.t
tyλy

자원

오늘이 논문을 찾았습니다 (03/04/2019).


동등한 것은 \ lambda와 \ t가 동일해야 함을 의미합니다. 증거에서 볼 수 없기 때문입니다. 고마워
jeza

@jeza, 위에서 쓴 것처럼 어떤 에도λ 0 t t ytλ0 (반드시 동일 하지만의 함수 와 데이터 ) 두 가지 형태의 솔루션이 동일하도록. tty
Royi

3
@jeza, & 는 본질적으로 무료 매개 변수입니다. 와 같이 지정 하면 특정 최적 솔루션이 생성됩니다. 그러나 는 자유 매개 변수로 남아 있습니다. 따라서이 시점 에서 동일한 최적의 솔루션을 산출 할 수있는 값이있을 수 있다는 주장이 있습니다 . 그 가 무엇인지에 대한 제약은 본질적으로 없다 . 그것은 몇 가지 고정 기능이어야처럼 아니에요 처럼,t λ t t t λ t = λ / 2λtλtttλt=λ/2 .
gung-모니 티 복원

@Royi, 나는 1- 왜 당신의 공식에 (1/2)가 있는지, 질문에 대한 공식이 없는지 알고 싶습니다. 2- KKT를 사용하여 두 공식의 동등성을 표시하고 있습니까? 3- 그렇다면, 나는 여전히 그 동등성을 볼 수 없습니다. 확실하지는 않지만 수식 1 = 수식 2를 표시한다는 증거입니다.
jeza

1. LS 항을 구별 할 때 더 쉽습니다. 내 λ y에서 움직일 수 있습니다λ 에서 OP 로 2 . 2. 두 번째 경우에 KKT를 사용했습니다. 첫 번째 경우에는 제약이 없으므로 해결하면됩니다. 3. 그들 사이에 닫힌 형태 방정식이 없습니다. 나는 논리와 그것을 연결하는 그래프를 만드는 방법을 보여주었습니다. 그러나 내가 쓴대로 각 마다 변경됩니다 (데이터에 따라 다릅니다). λy
Royi

9

수학적으로 덜 엄격하지만 직관적으로 접근하는 방법을 이해하는 방법은 제약 조건 버전 (문제의 방정식 3.42)으로 시작하여 "Lagrange Multiplier"( https : //en.wikipedia) 의 방법을 사용하여 해결하는 것입니다 . .org / wiki / Lagrange_multiplier 또는 자주 사용하는 다 변수 미적분학 텍스트). 미적분학에서 는 변수의 벡터이지만 우리의 경우 x 는 일정하고 β 는 변수 벡터라는 것을 기억하십시오. 당신이 첫 번째 식 (3.41)와 끝까지 라그랑주 승수 기술을 적용하면 (여분을 버리고 후 - λ t 최소화에 일정한 기준이 무시 될 수있다).xxβλt

이것은 올가미 및 기타 제약 조건에서도 작동한다는 것을 보여줍니다.


8

라그랑 지아의 이원성과 다음과 같은 것 사이의 더 넓은 관계 (때로는 등가)에 대해 읽을 가치가 있습니다.

  • 최적화는 어려운 (즉, 불가침 한) 제약 조건을 따릅니다
  • 제약 조건 위반에 대한 처벌을 통한 최적화.

약한 이중성 및 강한 이중성에 대한 빠른 소개

두 변수의 함수 가 있다고 가정하십시오 . 임의 들어 , XYf(x,y)x^y^ , 우리는이 :

minxf(x,y^)f(x^,y^)maxyf(x^,y)

즉, 임의의에 대해 유지하기 때문에 , XY 는 또한 원하는 분야x^y^

maxyminxf(x,y)minxmaxyf(x,y)

이를 약한 이중성이라고 합니다. 특정 상황에서는 강한 이중성이 있습니다 ( 새들 포인트 속성 이라고도 함 ).

maxyminxf(x,y)=minxmaxyf(x,y)

강력한 이중성이 유지되면 이중 문제를 해결하면 원시 문제도 해결됩니다. 그들은 같은 문제입니다!

제한된 릿지 회귀 분석을위한 라그랑지안

함수 L을 정의하겠습니다L 을 다음과 같이 .

L(b,λ)=i=1n(yxib)2+λ(j=1pbj2t)

라그랑지안의 최소-최대 해석

어려운 제약 조건에 따른 릿지 회귀 문제는 다음과 같습니다.

minbmaxλ0L(b,λ)

당신은 선택 한 후 그 목표, 인식 최소화하기 위해 B가 선택됩니다, 상대가 설정합니다 λ 선택한 경우 무한대로 b를 같은 그 Σ의 P는 J = 1 , B 2 J를 >bbλb .j=1pbj2>t

강한 이중성이 유지되는 경우 (Slater의 조건이 t > 0에 대해 만족되기 때문에 여기서 수행됨)t>0 ) 순서를 반대로하여 동일한 결과를 얻습니다.

maxλ0minbL(b,λ)

여기에서 상대는 먼저 선택합니다 ! 그런 다음 b 를 선택 하여 목표를 최소화하고 λ 선택을 이미 알고 있습니다. B의 L ( B , λ ) 부분 (촬영 λλ bλminbL(b,λ)λ 주어진 바와 같이)하여 릿지 회귀 문제의 제 2 형태와 동등하다.

보다시피, 이것은 릿지 회귀에만 국한된 결과는 아닙니다. 더 넓은 개념입니다.

참고 문헌

(나는 Rockafellar에서 읽은 박람회에 따라이 게시물을 시작했습니다.)

Rockafellar, RT, 볼록한 분석

또한 볼록 최적화에 관한 Stephen Boyd 교수의 강의 7강의 8 을 살펴볼 수도 있습니다 .


답은 모든 볼록 함수로 확장 될 수 있습니다.
81235

6

그것들은 동등 하지 않습니다 .

제한된 최소화 문제

(1)minbi=1n(yxib)2s.t.j=1pbj2t,b=(b1,...,bp)

우리 는 해당 라그랑주 를 이상으로 최소화하여 해결합니다.b

(2)Λ=i=1n(yxib)2+λ(j=1pbj2t)

여기서, A는 외생 주어진 바인딩, λ 0 Karush-쿤 터커 음수 승산되고, 베타 벡터 λ를 최소화하는 과정을 통해 최적으로 결정되어야한다 주어진 ttλ0 λ t .

Comparing (2) and eq (3.41) in the OP's post, it appears that the Ridge estimator can be obtained as the solution to

(3)minb{Λ+λt}

Since in (3) the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve b, it would appear that indeed the two approaches are equivalent...

But this is not correct because in the Ridge regression we minimize over b given λ>0. But, in the lens of the constrained minimization problem, assuming λ>0 imposes the condition that the constraint is binding, i.e that

j=1p(bj,ridge)2=t

The general constrained minimization problem allows for λ=0 also, and essentially it is a formulation that includes as special cases the basic least-squares estimator (λ=0) and the Ridge estimator (λ>0).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.


@MartijnWeterings Thanks for the comment, I have reworked my answer.
Alecos Papadopoulos

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.
Alecos Papadopoulos

1
This was the duplicate question I had in mind were the equivalence is explained very intuitively to me math.stackexchange.com/a/336618/466748 the argument that you give for the two not being equivalent seems only secondary to me, and a matter of definition (the OP uses λ0 instead of λ>0 and we could just as well add the constrain t<βOLS22 to exclude the cases where λ=0) .
Sextus Empiricus

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).
Alecos Papadopoulos

Certainly you could define some constrained minimization problem that is more general then ridge regression (like you can also define some regularization problem that is more general than ridge regression, e.g. negative ridge regression), but then the non-equivalence is due to the way that you define the problem and not due to the transformation from the constrained representation to the Lagrangian representation. The two forms can be seen as equivalent within the constrained formulation/definition (non-general) that are useful for ridge regression.
Sextus Empiricus
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.