능선 회귀 솔루션을 도출하는 방법은 무엇입니까?


40

능선 회귀에 대한 솔루션 도출에 문제가 있습니다.

정규화 용어가없는 회귀 솔루션을 알고 있습니다.

β=(XTX)1XTy.

그러나 L2 항 를 비용 함수에 추가 한 후 솔루션은 어떻게됩니까?λβ22

β=(XTX+λI)1XTy.

답변:


23

패널티를 추가하여 손실 기능을 수정하면 충분합니다. 행렬 용어에서 초기 2 차 손실 함수는 (Y-X \ beta) ^ {T} (YX \ beta) + \ lambda \ beta ^ T \ beta가됩니다. \ beta

(YXβ)T(YXβ)+λβTβ.
와 관련하여 파생 하면 정규 방정식 X ^ {T} Y = \ left (X ^ {T} X + \ lambda I \ right) \ beta 가되며 이는 릿지 추정기로 이어집니다.β
XTY=(XTX+λI)β

1
어떻게 \ lambda \ beta ^ T 의 파생어 \ betaλβTβ\ lambda I \ beta와 동일 합니까λIβ
user34790

4
@ user34790 아닙니다. 그것은 동등하게 2λβ . 그러나 2는 다른 용어에서 비슷한 2로 취소됩니다. 물론, I 요인은 "정규"대수학에서 1의 요인과 같습니다. 아무 것도 바꾸지 않고 원하는 곳에 곱할 수 있습니다.
Bill

4
@bill : 여기 에 정확한 차원의 행렬을 구하기 위해 와 함께 추가 할 수있는 가 필요합니다 . 는 스칼라 일뿐입니다IXTXλ
Henry

47

우리가 알고있는에하자 빌드 입니다 그 때마다 모델 매트릭스는 , 응답을 - 벡터입니다 , 및 매개 변수 - 벡터는 , 목적 함수n×pXnypβ

f(β)=(yXβ)(yXβ)

가 정규 방정식을 풀면 ( 잔차 제곱의 합) 최소화됩니다β

(XX)β=Xy.

릿지 회귀는 목적 함수에 다른 용어를 추가합니다 (일반적으로 모든 변수를 공통 기반으로 배치하기 위해 모든 변수를 표준화 한 후).

(yXβ)(yXβ)+λββ

음이 아닌 상수 입니다. 잔차 제곱의 합에 계수 자체의 제곱 합의 배수를 곱한 값입니다 (전역 최소값을 가짐). 이므로 양의 제곱근 있습니다.λλ0ν2=λ

항등 행렬 대한 곱에 대응하는 행으로 확장 된 행렬 고려하십시오 .Xνp×pI

X=(XνI)

벡터 가 마지막에 0으로 로 유사하게 확장 되면 목적 함수의 행렬 곱은 형식의 더 합니다. 원래 목표에. 따라서ypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

왼손 표현의 형태에서 법선 방정식은 다음과 같습니다.

(XX)β=Xy.

의 끝에 0을 인접 시켰으므로 오른쪽은 . 왼쪽의 은 원래 추가됩니다 . 따라서 새로운 정규 방정식은 다음과 같이 단순화됩니다.yXyν2I=λIXX

(XX+λI)β=Xy.

개념적으로 경제적 일뿐만 아니라이 결과를 도출하기 위해 새로운 조작이 필요 하지 않고 계산 상 경제적입니다. 보통 최소 제곱을 수행하는 소프트웨어도 아무런 변화없이 능선 회귀를 수행합니다. 그럼에도 불구하고 의 특수 구조를 활용하여 간격이 조밀 한 간격으로 결과를 효율적으로 얻을 수 있기 때문에 이러한 목적으로 설계된 소프트웨어를 사용하면 큰 문제에서 도움이 될 수 있습니다. 와 함께 )Xλλ

사물을 보는 이런 방식의 또 다른 아름다움은 그것이 능선 회귀를 이해하는 데 도움이 될 수 있다는 입니다. 회귀를 실제로 이해하려면 거의 항상 그것을 기하학적으로 생각하면 도움이됩니다. 의 열 은 차원 의 실제 벡터 공간에서 벡터를 구성 합니다 . 인접 바이 에 그들을 연장하여, 에 -vectors -vectors을 우리가 매립되어 보다 큰 공간에 를 포함하여 "상상적인"상호 직교 방향. 의 첫 번째 열XpnνIXnn+pRnRn+ppX는 크기 의 작은 가상의 구성 요소가 주어 지므로이를 확장하여 원래 열에 의해 생성 된 공간 밖으로 이동 시킵니다. 두 번째, 세 번째, ..., 열 마찬가지로 길어 동일한 량만큼 원래의 공간이 이동 - 다른 새로운 방향 그러나 모든. 결과적으로 원래 열에있는 공선 성이 즉시 해결됩니다. 또한, 더 큰 가 될수록, 이들 새로운 벡터는 개별 더 접근한다νppthννp상상의 방향 : 점점 더 정규직이됩니다. 결과적으로 정규 방정식의 해는 즉시 가능해지며, 가 에서 증가함에 따라 수치 적으로 빠르게 안정됩니다 .ν0

프로세스에 대한이 설명은 Ridge Regression이 처리하도록 설계된 문제를 해결하기위한 몇 가지 참신하고 창의적인 접근법을 제안 합니다. 예를 들어, 어떠한 수단을 사용하여 (예를 들면 그들의 1980 책에 Belsley, 쿠와 Welsch 설명 분산 분해로 회귀 진단 , 3 장), 당신은 거의 동일 선상 열 하위 그룹 식별 할 수 있습니다 여기서 각각의 하위 그룹을 다른 것과 거의 직교합니다. 당신은 많은에 행으로 인접하다 필요 (과에 제로 거리의 형제 자매에서 그룹의 각 요소를 전치에 대해 하나의 새로운 "가상의"치수를 전용으로) 가장 큰 그룹의 요소가있는 한을 : 당신이 필요하지 않은 상상을 이를 수행하기위한 차원.XXyp


2
이 책의 마지막 저자는 Welsh가 아니라 Welsch입니다.
Mark L. Stone

1
우와, 이건 내 마음을 날려 버렸어 이것이 선형 모델 외부에서, 즉 glm에 대해 일반화 될 때 어떤 일이 발생하는지에 대한 논의가 있습니까? 페널티는 릿지 회귀와 동일하게 정렬되어서는 안됩니다.
Cliff AB

2
@Cliff 매우 흥미로운 제안입니다. 그러나 GLM 추정값은 에 대해 더 복잡한 방식으로 의존 하므로 추정값은 일반적으로 OLS (여기서 와 같이 형식으로 고려할 수 없습니다. and ), 페널티 함수를 부과하는 것과 의 열을 수정하는 것 사이에 유용한 관계를 설정하기가 어려울 수 있습니다 . 특히, 이 작업을 수행하기 위해 의 값을 어떻게 보강 해야하는지 확실하지 않습니다 . X
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber

1
그렇습니다. 벌칙이 무엇인지 확인하는 데 약간의 생각이 필요하지만, 그렇게 걱정하지는 않습니다. 어떤 를 사용할 지에 대한 아이디어는 일반적으로 쉽지 않습니다. 로지스틱 회귀 분석의 경우를 제외하고 두 개의 추가 할 수 있습니다 . 0과 1 중 하나입니다. 이 기능 보강은 "+2 이항 추정량"의보다 일반적인 버전입니다 (공백하는이 추정기의 이름이 더 적절합니다. 기본적으로 사후 평균을 사용하여 이항 분포에서 를 추정 할 때 사용됩니다). 앞서 균일 한 추정치 ). y py ypp
Cliff AB

@ 마크 수정 해 주셔서 감사합니다. 내가 메모리에서 가고 있다고 말할 수 있습니다 ... :-).
whuber

20

도출에는 행렬 미적분이 포함되는데, 이는 상당히 지루할 수 있습니다. 다음과 같은 문제를 해결하고 싶습니다 :

minβ(YβTX)T(YβTX)+λβTβ

이제 및 함께 우리는 1 차 조건 도달합니다. 분리 하면 다음과 같이 해결됩니다.

(YβTX)T(YβTX)β=2XT(YβTX)
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.

9

나는 최근에 P-Splines의 맥락에서 같은 질문에 걸려 넘어졌으며 개념이 동일하므로 능선 추정기의 도출에 대해 더 자세한 답변을하고 싶습니다.

마지막 소환장에서의 처벌 기간에 따라 기존 OLS 기준 기능과 다른 처벌 기준 기능으로 시작합니다.

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

어디

  • p= 모형에 사용 된 공변량
  • xiTβ= 표준 선형 예측 변수
  • 첫 번째 summand는 평소처럼 최소화하고자하는 MSE (실제 값으로부터 예측의 제곱 된 발산)를 나타냅니다.
  • 두 번째 요약은 계수에 적용되는 처벌을 나타냅니다. 여기 우리는 유클리드 거리 측정을 의미하는 릿지 컨텍스트에 있으며, 따라서 처벌 조건에서 2 도입니다. Lasso-Penalization의 경우 1도를 적용하고 완전히 다른 추정량을 산출합니다.

이 기준을 행렬 표기법으로 다시 작성하고 더 세분화 할 수 있습니다.

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ 와 항등 행렬 인I

=yTy2βTXTy+βT(XTX+λI)β

이제 기준을 최소화 하는 를 검색합니다 . 그중에서도 행렬 분화 규칙 를 사용할 수 있습니다. 여기에 . βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy


@Jahn, 가 어떻게 가 되었는지 설명해 시겠습니까? 방금 전치사를 적용했다고 생각합니다. 그러나 모든 방정식에 적용하지 않고 한 항에 전치를 적용 할 수는 없습니다. 내가 여기서 무엇을 놓치고 있습니까?
yTXβ
βTXTy
이론가

1
@theateist 전치 된 스칼라는 동일한 스칼라입니다.
Konstantin

2

주어진 답변에서 누락 된 몇 가지 중요한 사항이 있습니다.

  1. 용 용액 : 1 차 필요 조건에서 파생 되는 수율 . 그러나 이것으로 충분합니까? 즉, 가 볼록한 경우에만 솔루션이 최소화됩니다 . 이것은 사실로 보일 수 있습니다.βfridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. 문제를 보는 또 다른 방법은 와 는 제한되었습니다 . OLS는 일반 최소 제곱을 나타냅니다. 이러한 관점에서 는 볼록 함수 제한된 볼록 목적 함수 의 전역 최소값을 찾는 데 사용되는 Lagrangian 함수 .fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

이러한 요점과 의 파생에 대한 자세한 설명은 다음의 훌륭한 강의 노트에서 찾을 수 있습니다. http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.