폐쇄 형 올가미 용액의 유도


52

올가미 문제 경우 \ | \ beta \ | _1 \ leq t 입니다. 소프트 임계 값 결과가 자주 나타납니다. \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | 직교 정규 X 사례의 경우 -\ gamma) ^ + 해결책을 "쉽게 보여줄"수 있다고 주장하지만, 효과가있는 솔루션을 본 적이 없습니다. 누군가가 하나를 보았거나 아마도 파생을 한 적이 있습니까?minβ(YXβ)T(YXβ)β1t

βjlasso=sgn(βjLS)(|βjLS|γ)+
X

이것은 약간 혼란스러워 보입니다. 처음에는 제약 조건 t 를 가정 t하고 솔루션에서 \ gamma 매개 변수를 소개합니다 γ. 나는이 두 가지 문제가 이중 문제를 통해 관련되기를 원한다고 생각하지만 아마도 당신이 찾고있는 것을 분명히 할 수 있습니다.
추기경

2
부분적으로 발견, @cardinal에 응답 β 최소화 (YXβ)(YXβ) 에 주제를 β1t 발견에 해당합니다 β 것을 최소화 (YXβ)(YXβ)+γj|βj|. t\ gamma 사이에는 1-1 관계가 γ있습니다. 소프트 임계 값 결과가 왜 그렇게 쉬운 지 알아 보려면 두 번째 표현을 해결하는 것이 좋습니다.

2
또 다른 메모 발견 β 최소화 (YXβ)(YXβ)+γj|βj|상기의 경우에 문제를 분쇄 βj>0 , βj<0β=0 .

2
@cardinal Ah 예, 1-1이 잘못되었습니다. 수정 : 모든 t0 에 대해 \ gamma \ geq 0을 찾을 수 있습니다 γ0.

3
좋은 토론 감사합니다! 나는이 비디오를 보았습니다- 이 토론과 매우 관련이 있는 올가미 좌표 하강 업데이트를 도출 하고 솔루션을 매우 우아하게 안내합니다. 다음 방문객에게 도움이 될 것입니다 :-)
zorbar

답변:


63

이것은 Karush–Kuhn–Tucker 조건을 통한 상당히 경제적 인 접근을 포함하여 여러 가지 방법으로 공격 할 수 있습니다 .

아래는 매우 기본적인 대안 인수입니다.

직교 설계를위한 최소 제곱 솔루션

가 직교 열로 구성되어 있다고 가정합니다 . 그런 다음 최소 제곱 솔루션은 X

β^LS=(XTX)1XTy=XTy.

동등한 문제

라그랑지안 양식을 통해 질문에서 고려되는 것과 동등한 문제가

minβ12yXβ22+γβ1.

우리가 얻을 첫 번째 항을 확장 이후 어떤을 포함하지 않는 관심있는 변수 중 하나를 버리고 12yTyyTXβ+12βTβyTy

minβ(yTXβ+12β2)+γβ1.

것을주의 , 이전 문제로 다시 쓸 수 β^LS=XTy

minβi=1pβ^iLSβi+12βi2+γ|βi|.

우리의 목적 함수는 이제 각각의 목표 변수 해당하는 목표의 합계 이므로 개별적으로 해결할 수 있습니다.βi

전체는 부분의 합과 같습니다

특정 수정하십시오 . 그런 다음 i

Li=β^iLSβi+12βi2+γ|βi|.

경우 , 우리는이 있어야합니다 , 그렇지 않으면 때문에 우리가 그 기호를 뒤집어 목적 함수에 대한 낮은 값을 얻을 수 있습니다. 마찬가지로 이면 선택해야합니다 .β^iLS>0βi0β^iLS<0βi0

사례 1 : . 이후 , 과 관련하여이 미분 및 0과 동일하게 설정 , 우리는 습니다. 오른쪽이 음수가 아닌 경우에만 가능합니다.이 경우 실제 해결책은 β^iLS>0βi0

Li=β^iLSβi+12βi2+γβi,
βiβi=β^iLSγ
β^ilasso=(β^iLSγ)+=sgn(β^iLS)(|β^iLS|γ)+.

사례 2 : . 이것은 이 있어야 함을 의미 하므로 관련하여 차별화 0으로 동일하게 설정, 우리가 얻을 . 그러나, 다시이 가능 보장하기 위해, 우리가 필요로하는 취함으로써 달성되는, β^iLS0βi0

Li=β^iLSβi+12βi2γβi.
βiβi=β^iLS+γ=sgn(β^iLS)(|β^iLS|γ)βi0
β^ilasso=sgn(β^iLS)(|β^iLS|γ)+.

두 경우 모두 원하는 양식을 얻었으므로 완료되었습니다.

최종 비고

같은 점에 유의 다음의 각을 증가,반드시 감소하므로 합니다. 때 , 우리는 들어, OLS 솔루션을 복구하고,모든 대해 을 얻습니다 .γ|β^ilasso|β^lasso1γ=0γ>maxi|β^iLS|β^ilasso=0i


2
훌륭한 추기경 @ 추기경!
게리

9
+1 전체 후반은 목적 함수라는 간단한 관찰에 의해 대체 될 수있다 것이다 정점이있는 두 개의 볼록한 포물선 부분의 결합. 대해서는 음수 부호가 , 그렇지 않으면 양수 부호가 사용 됩니다. 공식은 낮은 정점을 선택하는 멋진 방법입니다. β12β2+(±γβ^)β±γβ^β<0
whuber

가능한 경우 KKT- 최적 조건을 사용하여 파생 된 내용을보고 싶습니다. 이 결과를 도출하기위한 다른 방법은 무엇입니까?
user1137731

5
@ Cardinal : 멋진 파생에 감사드립니다. 하나의 관찰. 내가 기억하면 직교 열이있는 행렬은 직교 (일명 직교) 행렬과 다릅니다. 이어서 일부 대각선 행렬에 대한 (반드시 행렬). (원래의 질문에서와 같이) 우리가해야합니까 직교 행렬 가정으로 모든 위대한 :) 보이는XX=DDXX=I
올렉 Melnikov 보낸

@cardinal 나는 왜 그렇지 않으면 "그렇지 않으면 우리는 부호를 뒤집어 목적 함수에 대해 더 낮은 값을 얻을 수 있기 때문에"라고 말하지 않습니다. 우리는 목적 함수의 미분을 취하고 있습니다. 따라서 목적 함수가 더 높거나 낮 으면 누가 신경 쓰나요? 우리가 신경 쓰는 것은 미분 값이 0으로 설정되어 있고 극단을 신경 쓰는 것입니다. 상수에 따라 더 높거나 낮은 지 여부는 argmin에 영향을 미치지 않습니다.
user13985

7

의 열인 공변량 도 되도록 표준화되었다고 가정 합니다. 이것은 나중에 편의를 위해서입니다. 가 대각선 이기 때문에 표기가 없으면 더 커집니다. 또한 라고 가정하십시오 . 결과가 유지되는 데 필요한 가정입니다. 최소 제곱 추정값 . 그런 다음, (라그랑지안 형태의) 올가미 추정기 xjXRn×pXTX=IXTXnpβ^OLS=argminβyXβ22

(defn.)β^λ=argminβ12nyXβ22+λβ1(OLS is projection)=argminβ12nXβ^OLSXβ22+λβ1(XTX=I)=argminβ12nβ^OLSβ22+λβ1(algebra)=argminβ12β^OLSβ22+nλβ1(defn.)=proxnλ1(β^OLS)(takes some work)=Snλ(β^OLS),
\ 단부 정렬 * {} 여기서 함수의 근위 연산자 와 양의 소프트 임계proxffSαα.

이것은 추기경이 작동하는 근위 연산자의 상세한 파생을 건너 뛰는 파생이지만, 닫힌 양식을 가능하게하는 주요 단계를 명확히하기를 바랍니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.