능선 회귀와 PCA 회귀의 관계


19

나는 (와 능선 회귀 사이의 연결 웹에서 읽기 어딘가를 가진 기억 2 와 PCA 회귀 정규화가) 사용하는 동안 2 hyperparameter의와 -regularized 회귀 분석을 λ , 경우 λ0 , 다음 회귀와 PC 변수를 제거하는 것과 같습니다 가장 작은 고유 값.

  • 왜 이것이 사실입니까?
  • 이것이 최적화 절차와 관련이 있습니까? 순진하게, 나는 그것이 OLS와 동등한 것으로 기대했을 것입니다.
  • 아무도 이것에 대한 언급이 있습니까?

1
귀하의 진술에서 PCA와 회귀가 어떻게 연결되어 있는지 더 명확하게 설명해 주시겠습니까? 회귀 분석은 독립 변수와 종속되는 반면 PCA에서는 그 어떤 것도 발생하지 않습니다. 그렇다면 PCA를 적용 할 변수는 무엇입니까? 회귀와 관련이 거의없는 것은 독립 변수 일 수 없습니다. 그러나 모든 변수에 적용되는 경우 고유 벡터는 모두 선형 조합입니다. 그것은 아마도 제거하기 위해 무엇을 의미 할 수 있는 가 종속 변수를 포함하기 때문에, 데이터 세트에서 같은 구성 요소를?
whuber

1
매우 작은 정규화 페널티를 사용하면 L2 정규 회귀 분석이 가장 작은 고유 값을 갖는 변수를 제거한다는 것입니다. 따라서 설계 행렬에서 SVD를 수행하고 고유 값이 가장 작은 변수를 제거하는 것은 "부드러운"정규화 페널티가있는 회귀에 해당합니다. 이것은 내가 찾은 가장 가까운 설명 입니다. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G

3
귀하의 의견은 귀하의 의견에서 말하는 것과 반대되는 것을 보여줍니다 : 작은 경우 결과에는 거의 변화가 없습니다. 아무것도 제거되지 않습니다. 실제로, 여러 슬라이드는 L 2 불이익 회귀 (예상치가 0 으로 축소됨 )와 "PCA 회귀"(가장 작은 구성 요소가 완전히 제거됨) 의 차이를 지적하는 것을 목표로하는 것으로 보입니다 . 일부 상황). λL20
whuber

2
mm .. 다른 참조를 찾았습니다. statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf 슬라이드에서 " 및 주요 구성 요소" 슬라이드에서 릿지 회귀는 큰 dj * 한숨 *yridge
Jose G

3
p. 그 최신 참조 중 14 개가 귀하의 질문에 명시 적으로 답변합니까?
whuber

답변:


23

하자 센터링 될 N × P의 예측 매트릭스의 특이 값 분해 고려 X = U S V를S는 대각 성분을 가진 대각 행렬 인 S I .Xn×pX=USVSsi

정규 방정식의 피팅 값 (OLS) 회귀 주어진다 Y O L S = X β O L S = X ( XX ) - 1 XY = U UY . 리지 회귀 피팅 값이 주어진다 Y r에 거라고 g의 E = X β r에 I D g E = X ( XX

y^OLS=XβOLS=X(XX)1Xy=UUy.
PCA와 회귀 (PCR)의 피팅 값K의성분이 주어진다 Y PCR=XPCβPCR=U
y^ridge=Xβridge=X(XX+λI)1Xy=Udiag{si2si2+λ}Uy.
k 거기 유전율 뒤에 0 것.
y^PCR=XPCAβPCR=Udiag{1,,1,0,0}Uy,
k

여기에서 우리는 그것을 볼 수 있습니다 :

  1. 만약 다음 Y R I D g E = Y O L S .λ=0y^ridge=y^OLS

  2. λ>0sisi2λ

  3. kλ=0kλ=

  4. 이는 융기 회귀가 PCR의 "부드러운 버전"으로 볼 수 있음을 의미합니다.

    siX

  5. 릿지 회귀는 실제로 성능이 향상되는 경향이 있습니다 (예 : 교차 검증 된 성능이 더 높음).

  6. λ0y^ridgey^OLSsi

한 가지 좋은 참고 자료는 통계 학습의 요소 , 섹션 3.4.1 "교차 회귀"입니다.


이 스레드를 참조하십시오 : 회귀에서의 릿지 정규화 해석 , 특히 @BrianBorchers의 답변.


siβLeastsquares

k
Udiag(11,12,...,1k,0,...,0)UTy

이것은 아름답다.
xxx222

6

통계 학습의 요소는이 연결에 대해 큰 토론을합니다.

이 연결과 논리를 해석하는 방법은 다음과 같습니다.

  • PCA는 피처 변수의 선형 조합으로, 새로운 공간에서 설명하는 데이터의 분산을 최대화하려고합니다.
  • 다중 공선 성 (또는 데이터 행보다 많은 예측 변수)이있는 데이터는 전체 순위가없는 공분산 행렬로 이어집니다.
  • 이 공분산 행렬을 사용하면 최소 제곱 솔루션을 결정하기 위해 반전 할 수 없습니다. 이로 인해 최소 제곱 계수의 수치 근사가 무한대로 증가합니다.
  • 릿지 회귀는 LS 계수의 행렬 반전 및 수렴을 허용하기 위해 공분산 행렬에 람다 페널티를 도입합니다.

PCA 연결은 Ridge Regression이 다중 공선 성이 발생하는 위치를 판별하기 위해 피처의 선형 조합을 계산합니다. 가장 작은 분산을 갖는 피처의 선형 조합 (원리 성분 분석) (따라서 PCA에서 더 작은 특이 값과 더 작은 고유 값)이 가장 어려운 처벌을받습니다.

이런 식으로 생각하십시오. 가장 작은 분산을 갖는 피처의 선형 조합에 대해, 우리는 가장 유사한 피처를 발견하여 다중 공선 성을 유발합니다. Ridge는이 선형 조합이 설명하는 방향에 따라 기능 세트를 줄이지 않으므로 해당 방향에 해당하는 원래 기능에 가장 큰 불이익이 가해집니다.


2

선형 방정식을 고려하십시오

엑스β=와이,
그리고 SVD 엑스,
엑스=에스V,
어디 에스=진단하다(에스나는) 특이 값의 대각 행렬입니다.

보통 최소 제곱은 모수 벡터를 결정합니다 β 같이

β영형에스=V에스1
그러나이 접근 방식은 하나의 특이 값이 0이 되 자마자 실패합니다 (반전이 존재하지 않음). 또한, 아니더라도에스나는 은 0으로, 숫자 적으로 작은 특이 값으로 인해 행렬이 잘못 조정되고 오류에 매우 취약한 해가 될 수 있습니다.

Ridge regression and PCA present two methods to avoid these problems. Ridge regression replaces S1 in the above equation for β by

Sridge1=diag(sisi2+α),βridge= VSridge1UT

PCA replaces S1 by

SPCA1=diag(1siθ(siγ)),βPCA= VSPCA1UT
wehre θ is the step function, and γ is the threshold parameter.

Both methods thus weaken the impact of subspaces corresponding to small values. PCA does that in a hard way, while the ridge is a smoother approach.

More abstractly, feel free to come up with your own regularization scheme

SmyReg1=diag(R(si)),
where R(x) is a function that should approach zero for x0 and R(x)x1 for x large. But remember, there's no free lunch.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.