대각선에 상수를 추가하여 릿지 추정치가 OLS보다 나은 이유는 무엇입니까?


59

나는 능선 회귀 추정치는 것을 이해 의 크기에 잔류 제곱의 합 페널티 킥을 최소화βββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

그러나, 나는 완전히 그 사실의 중요성을 이해하지 못하는 βridge 다릅니다 βOLS 만의 대각선에 작은 상수 추가하여 XX . 과연,

βOLS=(XX)1Xy
  1. 필자의 책은 이것이 추정치를 수치 적으로보다 안정적으로 만드는 이유를 언급합니다. 왜 그렇습니까?

  2. 수치 안정성은 능선 추정치의 0으로의 수축과 관련이 있습니까, 아니면 우연의 일치입니까?

답변:


76

비정형 회귀 분석에서 매개 변수 공간에 능선 *을 얻을 수 있는데,이 능선을 따라 다양한 값이 모두 최소 제곱 기준에서 거의 또는 거의 동일하게 적용됩니다.

* (적어도, 그것은에서 능선의 우도 함수는 실제로있어 - 계곡 은 RSS 기준에 $를, 그러나 이것은 기존의 것으로 보인다 나는 능선을 전화를 계속합니다 - 알렉시스 점으로, 짝수 또는 의견에서, 나는 계곡의 산마루의 대응 물 인 thalweg 이라고 부를 수 있다)

모수 공간에서 최소 제곱 기준에 능선이있는 경우, 능선 회귀로 인한 페널티는 모수가 원점에서 멀어짐에 따라 기준을 위로 밀어 해당 능선을 제거합니다.

여기에 이미지 설명을 입력하십시오
[ 선명한 이미지 ]

첫 번째 플롯에서, 능선을 따라 매개 변수 값이 크게 변경되면 RSS 기준에서 약간의 변화가 발생합니다. 이로 인해 수치가 불안정해질 수 있습니다. 작은 변경 (예 : 데이터 값의 작은 변경, 잘림 또는 반올림 오류)에 매우 민감합니다. 모수 추정치는 거의 완벽하게 상관되어 있습니다. 크기가 매우 큰 모수 추정값을 얻을 수 있습니다.

반대로, 매개 변수가 0에서 멀어 질 때 능선 회귀가 최소화하는 것 ( 페널티 를 추가하여)을 작은 반올림 또는 잘림 오류와 같은 조건의 작은 변화로 인해 결과에 큰 변화가 발생하지 않습니다. 추정치. 페널티 항은 0쪽으로 축소됩니다 (일부 편차가 발생 함). 소량의 바이어스는 (리지를 제거함으로써) 분산의 실질적인 개선을 구입할 수 있습니다.L2

추정치의 불확실성이 감소된다 (표준 오차는 2 차 도함수와 반비례하며 페널티에 의해 더 커짐).

모수 추정치의 상관 관계가 줄어 듭니다. 작은 매개 변수에 대한 RSS가 더 나쁘지 않은 경우에는 크기가 매우 큰 매개 변수 추정값을 얻을 수 없습니다.


4
이 답변은 수축과 수치 안정성을 이해하는 데 실제로 도움이됩니다. 그러나 " 작은 상수를 추가하여 "이 두 가지를 달성 하는 방법에 대해서는 아직 확실하지 않습니다 . XX
Heisenberg

4
대각선에 상수를 추가하는 것은 RSS 에 을 중심으로 한 원형 포물면을 추가하는 것과 같습니다 (위의 결과는 0에서 멀어지면서 융기 부분을 제거함). * (반드시 작지는 않지만, 어떻게 0
보았는지

6
찾고있는 영어의 "릿지"의 반대말 인 Glen_b (밸리 바닥을 따라있는 경로 / 곡선)는 thalweg 입니다. 방금 2 주 전에 배웠고 단순히 좋아합니다. 영어 단어처럼 들리지 않습니다 ! : D
Alexis

5
@Alexis 의심 할 여지없이 편리한 단어 일 것입니다. 감사합니다. 그것은 독일어 단어이기 때문에 그것은 아마 영어를 소리가 나지 않는다 (실제로 thal가 "에서와 같은 'thal'이다 네안데르탈 ="네안 데르 계곡 ""및 WEG = '방법'). [그것으로, 나는 그것이 무엇을 부를 것인지 생각할 수 없었기 때문에 "릿지"를 원했지만 사람들이 가능성이나 RSS를보고 있든 그것을 능선 이라고 부르는 것처럼 보였고 , 따라 가고 싶은 욕구를 설명하고있었습니다. 비록 이상하게 보이지만 협약. Thalweg 는 옳은 단어를위한 훌륭한 선택이 될 것입니다. 제가 이상한 컨벤션을
따르지 않았습니다

4
X는 매트릭스하지 전체 랭크에 근접하게된다 (따라서 X'X 거의 단수된다) 정확히 리지는 우도에 나타나면. 능선의 열 사이의 거의 선형적인 관계의 직접적인 결과이다 만든다 들 (거의) 선형 종속. βXβ
Glen_b

28

Glen_b의 그림과 Ridge 견적 도구에 대한 통계 설명에 +1. OP의 질문 1)과 2)에 답하는 Ridge 회귀에 순수 수학 (선형 대수) pov를 추가하고 싶습니다.

먼저 는 대칭 양의 반정의 행렬- 표본 공분산 행렬의 배입니다. 따라서 고유 분해됩니다p × p nXXp×pn

XX=VDV,D=[d1dp],di0

이제 행렬 반전은 고유 값의 반전에 대응하므로 OLS 추정기는 ( )를 필요로합니다. 분명히 이것은 모든 고유 값이 엄격하게 0보다 큰 경우에만 작동합니다 ( . 를 들어 이 불가능하다; 대한 이이었다 우리가 보통에 관심을 - 그것은 일반적으로 사실이다 다중 공선 .(XX)1=VD1VV=V1di>0pnnp

통계 학자로서 우리는 데이터 작은 변동 이 추정치를 어떻게 변화시키는 지 알고 싶어합니다 . 어떤에서 작은 변화 것이 분명하다 거대한 변화에 이르게 경우 매우 작습니다.Xdi1/didi

릿지 회귀가하는 것은 모든 고유 값을 0에서 멀어지게 이동하는 것입니다.

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
이제 고유 값이 입니다. 긍정 페널티 매개 변수를 선택하면 경우 에도 행렬을 뒤집을 수없는 이유가 있습니다. 릿지 회귀 분석의 경우 데이터 의 작은 변형 은 더 이상 행렬 반전에 미치는 매우 불안정한 영향을 미치지 않습니다.di+λλ0pnX

수치 안정성은 고유 값에 양의 상수를 추가 한 결과이므로 0으로의 수축과 관련이 있습니다. 의 작은 변동 이 역수를 너무 많이 변경하지 않기 때문에 더 안정적입니다 . 그 부근에 그 수축 이제 이후 항이 곱해 역 고유치와 OLS 용액보다 제로에 가까운 .0 V - 1 X ' , Y 1 / ( D는 + λ ) 1 / DX0V1Xy1/(di+λ)1/d


2
이것은 내 질문의 대수 부분에 만족스럽게 대답합니다! Glen_b 답변과 함께 문제에 대한 자세한 설명을 제공합니다.
Heisenberg

17

@Glen_b의 데모는 훌륭합니다. 나는 문제의 정확한 원인과 2 차 Penalized Regression이 어떻게 작동하는지에 대한 설명을 제외하고는 Penalization이 0으로 가로 채기 이외의 계수를 줄이는 효과가 있다는 결론이 있습니다. 이는 표본 크기가 모수 추정치 수와 관련하여 크지 않은 경우 대부분의 회귀 분석에 내재 된 과적 합 문제에 대한 직접적인 솔루션을 제공합니다. 비 절편에 대한 제로에 대한 거의 모든 처벌은 처벌받지 않은 모델에 대해 예측 정확도를 향상시킬 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.