통계 학습에서 가장 인기있는 책을 읽었습니다
1- 통계 학습의 요소.
2- 통계 학습 소개 .
둘 다 능선 회귀에는 동등한 두 가지 공식이 있다고 언급합니다. 이 결과에 대해 이해할만한 수학적 증거가 있습니까?
나는 또한 Cross Validated를 겪었 지만 거기에서 확실한 증거를 찾을 수 없습니다.
또한 LASSO는 동일한 유형의 증명을 누릴 수 있습니까?
통계 학습에서 가장 인기있는 책을 읽었습니다
1- 통계 학습의 요소.
2- 통계 학습 소개 .
둘 다 능선 회귀에는 동등한 두 가지 공식이 있다고 언급합니다. 이 결과에 대해 이해할만한 수학적 증거가 있습니까?
나는 또한 Cross Validated를 겪었 지만 거기에서 확실한 증거를 찾을 수 없습니다.
또한 LASSO는 동일한 유형의 증명을 누릴 수 있습니까?
답변:
고전적인 릿지 회귀 ( Tikhonov Regularization )는 다음과 같이 제공됩니다.
위의 주장은 다음과 같은 문제가 동일하다는 것입니다.
를 첫 번째 문제의 최적 솔루션으로 정의 하고 를 두 번째 문제의 최적 솔루션으로 정의하겠습니다 .
동등성 주장은 입니다.
즉, 항상 와 쌍을 가질 수 있으므로 문제의 해결책은 동일합니다.
우리는 어떻게 쌍을 찾을 수 있습니까?
문제를 해결하고 솔루션의 속성을 살펴 보는 것입니다.
두 문제 모두 볼록하고 매끄 럽기 때문에 일이 더 간단 해집니다.
첫 번째 문제에 대한 해결책은 그라디언트가 사라지는 지점에서 제공됩니다.
두 번째 문제 의 KKT 조건 은 다음과 같습니다.
과
마지막 방정식은 또는 입니다.
2 개의 기본 방정식이 동일하다는 점에주의하십시오.
즉, 및 두 방정식이 모두 유지됩니다.
따라서 하나는 설정해야합니다. 즉, 둘 다 동등하기 위해서는 충분히 큰 대해 설정해야합니다 .
다른 경우에는 찾으십시오 .
이것은 기본적으로
그 를 찾으면 솔루션이 충돌합니다.
대하여 (LASSO) 경우는 물론, 같은 아이디어로 작동한다.
유일한 차이점은 솔루션을 위해 폐쇄하지 않았으므로 연결을 유도하는 것이 더 까다 롭다는 것입니다.
StackExchange Cross Validated Q291962 및 StackExchange Signal Processing Q21730-Bais Pursuit에서 중요성에 대한 답변을 살펴보십시오 .
비고
실제로 어떤 일이 일어나고 있습니까?
두 문제 모두에서 는 가능한 한 가깝도록 노력합니다 .
첫 번째 경우 는 첫 번째 항 ( 거리)을 사라지게하고 두 번째 경우 목적 함수를 사라지게합니다.
차이점은 첫 번째 경우 Norm 균형을 유지해야한다는 것 입니다. 으로 높은 균형 수단을 얻을 당신이해야 작은.
두 번째 경우 벽이 있습니다. 를 더 가깝게 그리고 더 가깝게 가져옵니다.
t t y λ yNorm (By ) 의 제약 조건 인 벽을 칠 때까지 .
벽이 충분하고 ( 높은 값 ) 충분하고 의 규범에 의존 한다면 가 의 규범에 곱한 값에만 관련이 있는 것처럼 의미가 없습니다 .
정확한 연결은 위에서 언급 한 Lagrangian에 의한 것입니다.
오늘이 논문을 찾았습니다 (03/04/2019).
수학적으로 덜 엄격하지만 직관적으로 접근하는 방법을 이해하는 방법은 제약 조건 버전 (문제의 방정식 3.42)으로 시작하여 "Lagrange Multiplier"( https : //en.wikipedia) 의 방법을 사용하여 해결하는 것입니다 . .org / wiki / Lagrange_multiplier 또는 자주 사용하는 다 변수 미적분학 텍스트). 미적분학에서 는 변수의 벡터이지만 우리의 경우 x 는 일정하고 β 는 변수 벡터라는 것을 기억하십시오. 당신이 첫 번째 식 (3.41)와 끝까지 라그랑주 승수 기술을 적용하면 (여분을 버리고 후 - λ t 최소화에 일정한 기준이 무시 될 수있다).
이것은 올가미 및 기타 제약 조건에서도 작동한다는 것을 보여줍니다.
라그랑 지아의 이원성과 다음과 같은 것 사이의 더 넓은 관계 (때로는 등가)에 대해 읽을 가치가 있습니다.
두 변수의 함수 가 있다고 가정하십시오 . 임의 들어 , X 및 Y , 우리는이 :
즉, 임의의에 대해 유지하기 때문에 , X 와 Y 는 또한 원하는 분야
이를 약한 이중성이라고 합니다. 특정 상황에서는 강한 이중성이 있습니다 ( 새들 포인트 속성 이라고도 함 ).
강력한 이중성이 유지되면 이중 문제를 해결하면 원시 문제도 해결됩니다. 그들은 같은 문제입니다!
함수 L을 정의하겠습니다 을 다음과 같이 .
어려운 제약 조건에 따른 릿지 회귀 문제는 다음과 같습니다.
당신은 선택 한 후 그 목표, 인식 최소화하기 위해 B가 선택됩니다, 상대가 설정합니다 λ 선택한 경우 무한대로 b를 같은 그 Σ의 P는 J = 1 , B 2 J를 > .
강한 이중성이 유지되는 경우 (Slater의 조건이 t > 0에 대해 만족되기 때문에 여기서 수행됨) ) 순서를 반대로하여 동일한 결과를 얻습니다.
여기에서 상대는 먼저 선택합니다 ! 그런 다음 b 를 선택 하여 목표를 최소화하고 λ 선택을 이미 알고 있습니다. 분 B의 L ( B , λ ) 부분 (촬영 λ 주어진 바와 같이)하여 릿지 회귀 문제의 제 2 형태와 동등하다.
보다시피, 이것은 릿지 회귀에만 국한된 결과는 아닙니다. 더 넓은 개념입니다.
(나는 Rockafellar에서 읽은 박람회에 따라이 게시물을 시작했습니다.)
Rockafellar, RT, 볼록한 분석
그것들은 동등 하지 않습니다 .
제한된 최소화 문제
우리 는 해당 라그랑주 를 이상으로 최소화하여 해결합니다.
여기서, A는 외생 주어진 바인딩, λ ≥ 0 Karush-쿤 터커 음수 승산되고, 두 베타 벡터 및 λ를 최소화하는 과정을 통해 최적으로 결정되어야한다 주어진 t .
Comparing and eq in the OP's post, it appears that the Ridge estimator can be obtained as the solution to
Since in the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve , it would appear that indeed the two approaches are equivalent...
But this is not correct because in the Ridge regression we minimize over given . But, in the lens of the constrained minimization problem, assuming imposes the condition that the constraint is binding, i.e that
The general constrained minimization problem allows for also, and essentially it is a formulation that includes as special cases the basic least-squares estimator () and the Ridge estimator ().
So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.