릿지 및 LASSO 규범


12

이 게시물은 다음과 같습니다. 왜 대각선에 상수를 추가하여 능선 추정치가 OLS보다 좋습니까?

내 질문은 다음과 같습니다.

내가 아는 한, 능선 정규화는 -norm (유클리드 거리)을 사용합니다. 그러나 왜 우리는이 표준의 제곱을 사용합니까? ( 직접 적용 하면 베타 합의 제곱근이 발생합니다).22

비교 , 우리는 LASSO에 대해 이것을하지 않습니다. LASSO는 -norm을 사용 하여 정규화합니다. 그러나 여기서는 "실제" 표준입니다 (이 합계의 제곱이 아닌 베타 절대 값의 제곱의 합).11

누군가 내가 명확히하도록 도울 수 있습니까?


2
능선 회귀에서의 페널티 항은 제곱 L2 규범입니다. 예를 들어 Tibshirani에 의해 쓰여진이 슬라이드를 참조하십시오 (슬라이드 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf 여기를 참조하십시오 en.wikipedia.org/wiki/Tikhonov_regularization
boscovich

작은 설명은 Rob이 아닌 Ryan Tibshirani의 슬라이드입니다 .
Ellis Valentiner

알겠습니다. 설명해 주셔서 감사합니다. 그러나 나는 왜 L2의 제곱이고 L1의 제곱이 아닌지 이해하지 못합니다. 정규화에 대한 일반 공식이 없습니까?
PLOTZ

@ user12202013 : 지적 해 주셔서 감사합니다. 나는 그것을 알아 차리지 못했다.
boscovich

답변:


9

릿지올가미 는 정규화와 회귀의 두 가지 방법입니다. 올가미 회귀는 절대 계수의 합에 제약을 부과합니다.

iβi2=||β||1

릿지 회귀는 제곱 차이의 합에 제약을가합니다.

iβi2=iβi22=||βi||22

계수의 유클리드 길이 인 다른 표준도 도입 할 것을 제안했습니다.

iβi2=||βi||2

릿지 회귀와 유클리드 길이의 차이는 제곱입니다. 이것은 정규화의 해석을 변경합니다. 능선과 유클리드 길이는 모두 0으로 정규화되는 반면, 능선 회귀는 정규화 량도 다릅니다. 제로에서 멀어 질수록 제로는 강해집니다. 이것은 정규화가 제로 주위에서 점차적으로 변하기 때문에 제로 주위에서 더 안정적입니다. 이것은 유클리드 길이, 또는 사실상 올가미 회귀의 경우에는 해당되지 않습니다.


7

현재 모든 종류의 페널티 기능 (릿지, 올가미, MCP, SCAD)을 가지고있는 벌칙적인 접근 방식이 많이 있습니다. 왜 특정 형태 중 하나인가에 대한 질문은 기본적으로 "이러한 형벌이 제공하는 장점 / 단점은 무엇입니까?"입니다.

관심있는 속성은 다음과 같습니다.

1) 거의 편견이없는 견적 (모든 벌점 추정기는 바이어스됩니다)

2) 희소성 (릿지 회귀는 희소 결과를 생성하지 않습니다. 즉 계수를 0으로 줄이지 않습니다)

3) 연속성 (모델 예측의 불안정성을 피하기 위해)

이들은 페널티 함수에 관심이있을 수있는 몇 가지 속성입니다.

파생 및 이론적 작업에서 합계로 작업하는 것이 훨씬 쉽습니다. 예 : and. 상상 우리가 있던 경우에 또는 . 파 생성 (일관성, 점근 적 정상 성 등의 이론적 결과를 나타내는 데 필요함)을 취하면 벌칙이 따를 수 있습니다.| | β | | 1 = | β i | ||β||22=|βi|2||β||1=|βi| (|βi|)2(|βi|2)(|βi|)2


알았어 고마워. 그러나 왜 L2의 제곱이고 L1의 제곱이 아닌가? 정규화에 대한 일반 공식이 없습니까? 이 ... 저를 당혹
PLOTZ

@ PLOTZ 나는 내 대답에 약간을 추가했습니다.
bdeonovic

벤자민 감사합니다! 확실히 지금 더 명확합니다! 나는 당신의 대답 전에이 이론적 인 목적을 얻지 못했습니다. 답변 주셔서 감사합니다.
PLOTZ

@Benjamin : # 1 지점에서 실제로 "( 불이익을받은 모든 견적자가 편견이있는 것은 아닙니다 )"라는 의미입니까? 릿지 회귀는 – 하나만 말하면 – 편향되어 있습니다.
boscovich

으악 네 고맙습니다! 실제로 모든 처벌 된 견적자는 편향 될 것이라고 생각합니다.
bdeonovic

5

실제로의 제곱을 모두 -norm와 -norm 정규화의 같은 클래스에서 온 : 때 .121βppp>0

Ridge 회귀 분석은 를 사용 하고 Lasso 이지만 다른 값을 사용할 수 있습니다 .p=2p=1p

예를 들어, 당신은 모든 값에 대한 스파 스 솔루션이 , 그리고 더 작은 값 드문 드문 솔루션.p1p

값의 경우 목표가 더 매끄럽지 않으므로 최적화가 어려워집니다. 대해 목적은 비 볼록 최적화조차 어려워 그렇다 ...p1p<1


2

기술이 개발 될 때 "왜"질문은 항상 대답하기 어렵지만 여기에는 더 간단한 대답이 있다고 생각합니다. 정규화 항을 쉽게 구별 할 수 있도록 제곱 된 -norm이 사용됩니다. 릿지 회귀는 다음을 최소화합니다.l2

yXβ22+λβ22

다음과 같이 쓸 수도 있습니다 :

yXβ22+λβTβ

이제 wrt 를 쉽게 차별화 하여 폐쇄 형 솔루션을 얻을 수 있습니다.β

β^ridge=(XTX+λI)1XTy

그로부터 모든 종류의 추론이 도출 될 수있다.


1

의 제곱 사용과 다른 하나의 중요한 차이점을 고려 표준 (즉, 릿지 회귀)와 변성 규범 다음의 유도체 의 표준 , 에서 주어진다 이므로 제로 벡터에서 분화 할 수 없습니다. 즉, 규범은 올가미와 같은 개별 변수 선택을 수행하지 않지만 이론적으로 최대 벌점 가능성에 대한 솔루션으로 을 산출 할 있습니다. 를 제곱함으로써222x||x||2xx||x||22β=02 릿지 타입의 페널티는 어디에서나 구별 할 수 있으며 그러한 솔루션을 결코 얻을 수 없습니다.

이 동작은 정확히 (내 이해에 의해) 그룹 올가미 (Yuan and Lin)와 스파 스 그룹 올가미 (Simon 등 )가 정사각형 대신 표준을 사용합니다 (사전 지정된 계수 하위 세트). 의 규범.22

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.