선형 회귀 경우에만 알고


13

라고 가정하십시오 Xβ=Y.

우리는 모르는 Y 정확히 각 예측, 만의 상관 관계 XtY .

통상 최소 제곱 (OLS) 용액은 β=(XtX)1XtY 및 문제는 없다.

그러나 XtX 가 단수 (다중 공선 성)에 가깝고 최적의 능선 모수를 추정해야한다고 가정합니다. 모든 방법에는 정확한 값이 필요한 것 같습니다 Y.

XtY알려진 대안 방법 이 있습니까?


흥미로운 질문입니다. 아마도 어떤 종류의 EM 알고리즘이 작동 할 것입니다.
확률 론적

이해가 안됩니다. 최적의 능선 매개 변수를 추정하기 위해 교차 유효성 검사를 사용할 수 없습니까?
Pardis

@Pardis : 질문에 손실 기능이 없으므로 최적의 의미를 알 수 없습니다 . 손실 함수가 MSE 인 경우 우리가 겪는 문제를 볼 수 있습니까?
추기경

1
@ JohnSmith : 내가 운전했던 지점을 언급하고 있습니다. "최적"을 측정하는 방법에 대한 표시는 없습니다. 효과적으로하고있는 것은 예측 또는 적합의 "품질"을 측정하기 위해 다른 메트릭 (거리 기능)을 도입하는 것입니다. 매우 멀어지기 위해서는 OP의 세부 사항이 더 필요하다고 생각합니다.
추기경

1
@Pardis : 예상 한대로 추정값을 찾는 것은 문제가되지 않습니다. :) 그러나 크로스 밸리데이션을하기로 결정했다면 샘플 외부 MSE, 즉 각 반복마다 왼쪽 폴드를 어떻게 추정 할 것입니까? :)
추기경

답변:


8

이것은 흥미로운 질문입니다. 놀랍게도 특정 가정 하에서 무언가를 수행하는 것이 가능하지만 잔차 분산에 대한 정보가 손실 될 수 있습니다. 얼마나 손실되는지에 달려 있습니다.X

하자 다음 특이 값 분해 고려 의 와 직교 열을 가진 행렬 대각 행렬 긍정적 특이 값으로 대각선에서 및 a 직교 행렬. 그런 다음 의 열은 의 열 공간에 대한 직교 정규 기저를 형성 하고 에서이 열 공간 에 를 투영하기위한 계수의 벡터입니다 . X U n × p D d 1d 2. . . d p > 0 V p × p U X Z = U t Y = D 1 V t V D U t Y = D 1 V t X t Y Y U Z XX=UDVtXUn×pDd1d2...dp>0Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
YU 열 기준. 공식 에서 는 와 대한 지식 만으로 계산할 수 있습니다.ZXXtY

주어진 대한 능형 회귀 예측 변수는 로 계산 될 수 있으므로 열 기준 릿지 회귀 예측 변수의 계수 는 이제 는 차원 평균 및 공분산 행렬 갖는 분포 가정을합니다 . 이어서 갖는 차원 평균 및 공분산 행렬 . 우리가 독립을 상상한다면Y = X ( X t X + λ I ) - (1) X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I ) - 1 D Z U Z = D ( D 2 + λ Iλ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
UYnξ σ 2 I n Zp U t ξ σ 2 I p Y New YX Z New = U t Y New Z E | | Y - Y | | 2
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew 와 같은 분포를 (조건에서 모든 이에 관해서부터) 대응하는 동일한 갖는다 분포하고 독립적이며 여기에서 세 번째 평등은 및 직교성이 뒤 따릅니다. 네 번째는YXZNew=UtYNewZ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^U 에는 정규 직교 열이 있습니다. 수량 은 정보를 얻을 수없는 오류이지만 에도 의존하지 않습니다 . 왼쪽의 예측 오차를 최소화하려면 오른쪽의 두 번째 항을 최소화해야합니다.Err0λ

표준 계산으로 여기서 는 매개 변수 하여 능선 회귀에 대한 유효 자유도라고합니다 . 의 바이어스되지 않은 추정량 은

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

이를 의 (비 편향) 추정값 와 결합합니다. 우리가 알고 있다면 최소화해야합니다. 우리가 알고있는 경우에 분명히,이 경우에만 수행 할 수 있습니다 또는 합리적인 추측이나 추정이 .

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

추정하는 것이 더 문제가 될 수 있습니다. 또한 표시 할 수있다 따라서 너무 작게 선택 하여 제곱 바이어스를 무시할 수 있다면 를 로 추정 할 수 있습니다. 이것이 작동한다면 많이 의존합니다 .σ2λσ2σ2=1

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2엑스
σ^2=1pd(λ)||ZZ^||2.
X

자세한 내용은 3.4.1 장 및 ESL 7 장 또는 GAM 2 장을 참조하십시오 .


0

문제에서와 같이 를 정의 하고 다양한 매개 변수 대해 를 정의 하고 샘플 레이블의 를 설정합니다 . 그런 다음 는 계산할 수 없으므로 알 수없는 모두 규범.β λβ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

이는 다음 알고리즘으로 이어집니다.

  • 훈련 세트 중 일부를 선택하기 위해 를 계산합니다 .e(λ,K)K
  • 결과를 의 함수로 합니다.λ
  • 플롯이 가장 평평한 값을 승인하십시오 .λ
  • 사용 최종 추정치로서.β=[XTX+λI]1XTY

1
나는 "줄거리가 가장 평평한 곳"이 대략 0과 같이 매우 작을 것이라고 추측하고있다.λ
jbowman

@jbowman : 문제가 잘 조정되어 있고 정규화가 필요하지 않은 경우에만 발생하며, 이면 충분합니다. 잘못 조정 된 경우 외부의 항목에 대한 예측 은 과적 합으로 인해 좋지 않으므로 가 커집니다. λ=0Ke(λ,K)
Arnold Neumaier

3
@ArnoldNeumaier : 는 계산할 수 없습니다. 각 예측 변수와의 상관 관계 만 알고 있습니다. 는 "Y 도메인"이 아닌 "예측 자 도메인"에 있습니다 (N이 표본 크기이고 p가 예측 자 수인 경우 각 예측 변수마다 하나씩 p 값만 있음). (XTY)K(XTY)
Jag

@Jag : 그러면 를 선택하기위한 정보가 충분하지 않습니다 . 그러나 는 어떻게 든 수집되었습니다. 수집 중에 샘플을 배치 로 분할하고 각 배치마다 개별적으로 조립하는 경우 교차 검증을 위해 각 배치를 하나씩 예약 할 수 있습니다. λXTYkXTY
Arnold Neumaier 2016 년

@ArnoldNeumaier : 는 외부에서 제공되며 수집되지 않습니다. XTY
Jag
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.