"스펙트럼 분해"를 통한 릿지 회귀를 사용한 수축 계수 증명


20

릿지 회귀가 어떻게 계수를 기하학적으로 0으로 축소하는지 이해했습니다. 또한 특수한 "정상적인 경우"에서이를 증명하는 방법을 알고 있지만 "스펙트럼 분해"를 통해 일반적인 경우에 어떻게 작동하는지 혼동됩니다.


4
당신은 당신이 혼란스러워 말했지만 당신의 질문은 무엇입니까?
whuber

답변:


30

이 질문은 Ridge Regression이 스펙트럼 분해를 사용하여 계수 추정치를 0으로 줄인다는 데모를 요구하는 것으로 보입니다. 스펙트럼 분해는 SVD ( Singular Value Decomposition) 의 쉬운 결과로 이해 될 수 있습니다 . 따라서이 게시물은 SVD로 시작합니다. 간단한 용어로 설명하고 중요한 응용 프로그램으로 설명합니다. 그런 다음 요청 된 (대수) 데모를 제공합니다. 물론 대수학은 기하학적 데모와 동일하며 단순히 다른 언어로 표시됩니다.

이 답변의 원천은 회귀 강의 노트 에서 찾을 수 있습니다 . 이 버전은 약간의 오류를 수정합니다.


SVD 란?

인 모든 행렬 는 으로 쓸 수 있습니다 .X p n X = U D V 'n×pXpn

X=UDV
  1. n × pU 는 행렬입니다.n×p

    • 의 열 길이는 입니다.1U1
    • 의 열 은 서로 직교합니다.U
    • 그들은이라고 주성분 의 .X
  2. P × PV 는 행렬입니다.p×p

    • 의 열 길이는 입니다.1V1
    • 의 열 은 서로 직교합니다.V
    • 이 차종은 회전 의 .R pVRp
  3. P × PD대각선 행렬입니다.p×p

    • 대각선 요소 는 음수가 아닙니다. 이들은 의 특이 값 입니다 . Xd11,d22,,dppX
    • 원한다면 가장 큰 것부터 가장 작은 것까지 주문할 수 있습니다.

기준 (1)과 (2)는 와 가 모두 직교 정규 행렬 이라고 주장한다 . 조건에 따라 깔끔하게 요약 할 수 있습니다.VUV

UU=1p, VV=1p.

결과적으로 ( 는 회전을 나타냄) 이기도합니다. 이것은 아래의 릿지 회귀 분석에서 사용됩니다.V V ' = 1 pVVV=1p

우리를 위해 무엇을

수식을 단순화 할 수 있습니다. 이것은 대수적으로나 개념적으로 작동합니다. 여기 몇 가지 예가 있어요.

정규 방정식

회귀 생각해보십시오. 평소와 같이 은 독립적이고 동일하게 기대치가없고 유한 분산 법칙에 따라 동일하게 분포되어 있습니다. 정규 방정식을 통한 최소 제곱 해는 SVD를 적용하고 결과 대수 혼란을 단순화하면 쉬운 통찰력을 얻을 수 있습니다.ε σ 2 β = ( X ' X ) - 1 X ' , Y .y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

이것과 의 유일한 차이점 은 요소의 역수가 사용된다는 것입니다 ! 다시 말해, "수식" 는 "반전" 의해 해결됩니다 .이 의사 반전은 회전 및 (단순하게 변환)을 취소하고 곱셈 ( )을 개별적으로 취소합니다. 각 주요 방향으로. D의 Y = X β X U V ' DX=VDUDy=XβXUVD

나중에 참조 할 수 있도록 "회전 된"추정값 는 "회전 된"응답 의 선형 조합입니다 . 계수는 (양)의 역수의 대각 요소 같 . β U ' Y D의 D - 1 I IVβ^UyDdii1

계수 추정값의 공분산

추정값의 공분산은 SVD를 사용하면 즉, 공분산은 각각 로 회전 된 분산이 인 직교 변수 의 공분산과 같이 작용 합니다.

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2Rk

모자 매트릭스

모자 행렬은앞의 결과를 통해 으로 다시 작성할 수 있습니다단순한!

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Eigenanalysis (스펙트럼 분해)

이후 와 그것은 그 즉시이다

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • 및 의 고유 값은 특이 값의 제곱입니다.XXXX
  • 의 열은 의 고유 벡터입니다 .VXX
  • 의 열은 의 고유 벡터 중 일부입니다 . 다른 고유 벡터는 존재하지만 고유 값 0에 해당합니다.UXX

SVD는 공선 성 문제를 진단하고 해결할 수 있습니다.

회귀선 근사

가장 작은 특이 값을 0으로 바꾸면 제품 만 약간 변경됩니다. 지금은, 그러나, 제로의 해당 열을 제거 , 효과적으로 변수의 수를 줄일 수있다. 이러한 열 제거와 거의 상관이 제공 , 이것은 가변 환원 기술로 효과적으로 작동 할 수있다.UDVUy

릿지 회귀

열 뿐만 아니라 자체 도 표준화하십시오 . (이 방법은 우리는 더 이상에서 일정한 열 않아도 ). 들어 리지 추정기이다 XyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

이것과 의 차이점 은 를 대체한다는 것 입니다. β^D1=D2D(D2+λ)1D실제로 이것은 원본에 분수 곱합니다 . ( ) 분모가 분자보다 분명히 크기 때문에, 모수는 "0으로 축소"를 추정합니다.D2/(D2+λ)λ>0


이 결과는 이전에 암시 된 다소 미묘한 의미로 이해되어야합니다. 회전 추정 은 여전히 ​​벡터 의 선형 조합 이지만 각 계수는 인수를 곱했습니다 . 따라서 회전 계수는 줄어들어야하지만 가 충분히 작은 경우 일부 자체가 실제로 크기가 커질 수 있습니다.Vβ^RUydii1dii2/(dii2+λ)λβ^R

주의 산만을 피하기 위해이 논의에서 0보다 작은 특이 값 중 하나의 경우는 제외되었습니다. 이러한 상황에서 일반적으로 " "을 0으로 설정dii1 하면 모든 것이 여전히 작동합니다. 일반화 된 역함수 가 정규 방정식을 풀기 위해 사용될 때 일어나는 일 입니다.


1
@Glen_b 좋은 지적입니다. 제가 고려하고있는 분수에 대해 명시해야했습니다! 내가 고칠 게
whuber

1
(1) 방정식 는 각 길이가 (정의 적으로) 인 경우 의 각 열 자체 의 내적 은 이라고 주장합니다 . (2) 는 가 회전 행렬 이라는 관측 결과를 따릅니다. 이는 도 회전 행렬 임을 의미하기 때문 입니다. 따라서 입니다. 꽂기 준다 . UU=1pU11=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
whuber

1
@Vimal 좋은 제안에 감사드립니다. 회귀 모델이 소개 된 "정상 방정식"섹션에 설명을 포함 시켰습니다.
whuber

1
때 정의에 의해 다음, 대칭 왼쪽과 오른쪽을 비교하면 실제 대칭 행렬의 대각 화는 SVD의 특수한 경우이며 대칭 행렬의 SVD에서 입니다. 실제로 가 퇴화하지 않는 경우가 그렇습니다. 그러나 그것이 완전히 기본적이지 않다는 것을 증명하므로 자세한 내용은 다루지 않겠습니다. V D U ' = X ' = X = U D V ' . U = V XX
VDU=X=X=UDV.
U=VX
whuber

1
@ whuber, 오, 이런 식으로? 적합치 우리는 계수 추정치를 사용하며, 계수가 0으로 줄어들면 적합치에 대해서도 동일하게 발생합니다. y^
jeza
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.