능선 회귀는 어떤 조건에서 보통 최소 제곱 회귀에 비해 개선을 제공 할 수 있습니까?


16

릿지 회귀 추정 파라미터 β 선형 모델에서 y=Xβ 에 의한 β λ = ( XX + λ I ) - 1 XY , λ는 정규화 파라미터이다. 상관 된 예측 변수가 많은 경우 OLS 회귀 ( λ = 0 ) 보다 성능이 더 우수하다는 것이 잘 알려져 있습니다.

β^λ=(XX+λI)1Xy,
λλ=0

릿지 회귀 실존 정리가 있다고 항상 존재하는 파라미터 의 평균 제곱 오차되도록 β λ는 OLS 추정치의 평균 제곱 오차보다 확실히 작고 β O L S = β 0 . 다시 말해, 최적의 λ 값 은 항상 0이 아닙니다. 이것은 1970 년 Hoerl and Kennard 에서 처음으로 입증되었으며 온라인에서 찾은 많은 강의 노트에서 반복됩니다 (예 : 여기여기 ). 내 질문은이 정리의 가정에 관한 것입니다.λ>0β^λβ^OLS=β^0λ

  1. 공분산 행렬 에 대한 가정이 있습니까?XX

  2. 차원성에 대한 가정이 있습니까?X

특히, 예측 변수가 직교 인 경우 (즉, 가 대각선 임) 또는 XX = I ? 그리고 하나 또는 두 개의 예측 변수 (예 : 하나의 예측 변수 및 절편) 만있는 경우에도 여전히 사실입니까?XXXX=I

정리가 그러한 가정을하지 않고 이러한 경우에도 여전히 유효하다면, 왜 회귀 회귀가 상관 예측 변수의 경우에만 권장되고 단순한 (즉, 다중이 아닌) 회귀에 권장되지 않는가?


이것은 수축에 대한 통합 견해에 대한 나의 질문과 관련이 있습니다. Stein의 역설, 능선 회귀 및 혼합 모델의 임의 효과 사이의 관계는 무엇입니까? 그러나 지금까지는이 점을 명확히하는 대답이 없습니다.


1
마지막 질문을 제외한 모든 내용은 Hoerl & Kennard 논문, 특히 소개의 첫 문장과 결론의 첫 문장에서 직접 다루어집니다. 마지막 벡터는 상수 벡터와 단일 예측 변수 사이의 공분산이 항상 0이라는 점에 의해 답할 수 있습니다. 이는 표준 방식으로 1 × 1 행렬 로 줄일 수 있게합니다 . XX1×1
whuber

1
감사합니다, @whuber. Hoerl & Kennard 논문이 내 질문 (적어도 기술적 인 질문)에 답한다고 믿습니다. 증거를 따르고 가정을 확인할 수 있어야합니다 (아직은하지 않았습니다). 그러나 나는 당신이 말하는 문장에 완전히 확신하지 않습니다. 인트로의 첫 문장은 내 질문과 어떤 관련이 있습니까? 결론의 첫 문장은 XX 가 균일 한 스펙트럼 (예 : I 과 같음)을 가졌다 면 정리가 적용되지 않음을 시사 합니다 . 그러나 증거에 앞서이 가정이 명시 적으로 언급되어 있지 않기 때문에 100 % 확신 할 수 없습니다. XXI
amoeba는 Reinstate Monica가

질문의 종류에 의해 요구 될 수있는 봐 높은 대표 사용자 (일반적으로 단지 누가 대답 을) (마찬가지로 다른 연결 질문에 대한 나를 보내신 것을 여기 stats.stackexchange.com/questions/122062/... !
javadba

답변:


11

1과 2에 대한 대답은 '아니오'이지만 존재 정리를 해석 할 때는주의가 필요합니다.

릿지 추정기의 변화

하자 페널티 아래 능선 추정 될 K , 및하자 β 모델에 대한 true 매개 변수가 될 Y = X β + ε . λ 1 , , λ pX T X 의 고유 값 이라고합시다 . Hoerl & Kennard 식 4.2-4.5에서 위험 (예상되는 L 2 오류 기준)은 다음과 같습니다.β^kβY=Xβ+ϵλ1,,λpXTX
L2

어디까지 I는 말할 수 ( X T X+k 개의 I의 P ) -(2)= ( X T X+k는 I (P) ) -1 ( X T X+k 개의 I의 (P) ) -1. 그들은γ1 ^ β β의 내부 곱의 분산에 대한 해석을 가지고있지만γ2는

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2 편견의 내부 산물입니다.

XTX=Ip

R(k)=pσ2+k2βTβ(1+k)2.
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0, we conclude that there is some k>0 such that R(k)<R(0).

The authors remark that orthogonality is the best that you can hope for in terms of the risk at k=0, and that as the condition number of XTX increases, limk0+R(k) approaches .

Comment

There appears to be a paradox here, in that if p=1 and X is constant, then we are just estimating the mean of a sequence of Normal(β,σ2) variables, and we know the the vanilla unbiased estimate is admissible in this case. This is resolved by noticing that the above reasoning merely provides that a minimizing value of k exists for fixed βTβ. But for any k, we can make the risk explode by making βTβ large, so this argument alone does not show admissibility for the ridge estimate.

Why is ridge regression usually recommended only in the case of correlated predictors?

H&K's risk derivation shows that if we think that βTβ is small, and if the design XTX is nearly-singular, then we can achieve large reductions in the risk of the estimate. I think ridge regression isn't used ubiquitously because the OLS estimate is a safe default, and that the invariance and unbiasedness properties are attractive. When it fails, it fails honestly--your covariance matrix explodes. There is also perhaps a philosophical/inferential point, that if your design is nearly singular, and you have observational data, then the interpretation of β as giving changes in EY for unit changes in X is suspect--the large covariance matrix is a symptom of that.

But if your goal is solely prediction, the inferential concerns no longer hold, and you have a strong argument for using some sort of shrinkage estimator.


2
Wow, thanks! Let me check my understanding of your "Comment" section: for any given β, an optimal k is non-zero, but its value is different for different betas, and no fixed k can beat k=0 for all betas, which is what is needed for admissibility. Correct? Apart from that, could you comment on my general question: [If the theorem makes no such assumptions, then] why is ridge regression usually recommended only for correlated predictors, and never recommended for simple (not multiple) regression? Is it because the positive effect is empirically known to be too small to bother?
amoeba says Reinstate Monica

2
H&K consistently assume XX is of full rank. By stating that the answer to #1 is "no," are you claiming their results continue to be true when it is not?
whuber

3
@whuber: Central to their derivation of the risk is that the ridge estimate β^=Zβ^, where β^ is the OLS estimate and Z=((XTX)1+kIp)1. This clearly cannot hold as such when XTX is rank deficient. But the OLS estimate doesn't exist--so perhaps any estimate with finite risk (take k large enough and you'll get β^0, with risk βTβ) is better than an estimator that doesn't exist? As far as if the risk derivation still holds: I'm not sure. A different proof would be needed.
Andrew M

3
@amoeba: yes, your restatement seems correct. To dominate the OLS estimator, we need some sort of adaptive procedure, in which λ is a function of the data. On your other thread, Xi'an had a comment about adaptive ridge estimates, so that might be a place to look. RE: ridge estimates for orthogonal designs--I have added another comment as far as the guidance I'd take from their proof.
Andrew M
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.