회귀 분석에서 능선 정규화 해석


25

최소 제곱 컨텍스트에서 능선 벌금에 관한 몇 가지 질문이 있습니다.

βridge=(λID+XX)1Xy

1)이 식은 X의 공분산 행렬이 대각 행렬로 축소되었음을 나타냅니다. 즉, 변수가 절차 전에 표준화되었다고 가정하면 입력 변수 간의 상관 관계가 낮아집니다. 이 해석이 맞습니까?

2) 수축 적용 인 경우 정규화를 통해 람다를 어떻게 든 [0,1] 범위로 제한 할 수 있다고 가정 할 때 왜 라인으로 공식화되지 않습니까 ?(λID+(1λ)XX)

3) 대한 정규화는 [0,1]과 같은 표준 범위로 제한 될 수있는 것입니다.λ

4) 대각선에 상수를 추가하면 모든 고유 값에 영향을 미칩니다. 단수 또는 거의 단수의 값만 공격하는 것이 낫습니까? 이것은 PCA를 X에 적용하고 회귀 전에 상위 N 주성분을 유지하는 것과 동등합니까? 아니면 교차 공분산 계산을 수정하지 않기 때문에 다른 이름을 가지고 있습니까?

5) 교차 공분산을 정규화 할 수 있습니까, 아니면

βridge=(λID+XX)1(γXy)

작은 가 교차 공분산을 낮추는 곳 . 분명히 이것은 모든 동일하게 낮추지 만 공분산 값에 따라 하드 / 소프트 임계 값과 같은 더 스마트 한 방법이있을 수 있습니다.γβ


릿지 페널티는 MSE 목적 함수의 라그랑주 승수를 통해 제한에서 비롯됩니다 . LASSO는 동일하지만 | β | 대신에. 현재 전화를 사용 중이므로 쉽게 파생을 게시 할 수 없습니다. 그러나 이것들은 훌륭한 질문입니다β2|β|
shadowtalker

답변:


19

좋은 질문입니다!

  1. 예, 정확히 맞습니다. 릿지 페널티는 많은 예측 변수가 밀접하게 관련되어있을 때 발생 하는 다중 공선 성 문제해결 하는 한 가지 방법으로 볼 수 있습니다 . 능선 페널티를 도입하면 이러한 상관 관계가 효과적으로 낮아집니다.

  2. :이 부분적으로 전통, 첫 번째 방정식에 명시된대로 능선 회귀 공식은 다음과 같은 비용 함수에서 다음 것을 부분적으로 사실이다 생각 경우 λ는 = 0 , 두 번째 항은 삭제하고, 첫 번째 항 ( "재구성 에러") 표준 OLS 수식 리드 최소화 할 수 β를 . 두 번째 항을 유지하면 β r i d g e에 대한 공식이 나온다

    =와이엑스β2+λβ2.
    λ=0ββridge. 이 비용 함수는 수학적으로 다루기에 매우 편리하며 이는 "정규화되지 않은"람다를 선호하는 이유 중 하나 일 수 있습니다.
  3. 정규화 한 가지 방법 총 분산하여 확장하는 t의 R ( XX ) , 즉 사용이 λ t R ( XX ) 대신 λ . 이것은 반드시 λ[ 0 , 1 ]로 한정 할 필요는 없지만 , "치수없이"만들 것이며 , 모든 실제 사례 에서 최적 λ1 보다 작을 것입니다 (NB : 이것은 단지 추측입니다!).λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "작은 고유 값 만 공격"은 별도의 이름을 가지며 주성분 회귀라고합니다. PCR과 릿지 회귀의 연관성은 PCR에서 특정 숫자 후에 모든 고유 값을 차단하는 "스텝 페널티"를 효과적으로 갖는 반면, 릿지 회귀는 "소프트 페널티"를 적용하여 모든 고유 값에 페널티를 부여하고 작은 값은 더 페널티를받습니다. 이것은 Hastie et al. 의 통계 학습의 요소에 잘 설명되어 있습니다. (무료 온라인 이용 가능), 섹션 3.4.1. 능선 회귀와 PCA 회귀 사이의 관계 에서 내 대답을 참조하십시오 .

  5. 이 작업을 본 적이 없지만 형식의 비용 함수를 고려할 수 있습니다. 이것은 β 를 0이 아니라 미리 정의 된 다른 값 β 0으로 줄 입니다. 수학 중 1 작품, 당신은 최적의 도착 경우 β 에 의해 주어진 β = ( XX + λ I ) - 1 ( XY +

    =와이엑스β2+λββ02.
    ββ0β 아마도 "교차 공분산 조절"로 볼 수 있습니까?
    β=(XX+λI)1(Xy+λβ0),

1
추가 이유를 설명 할 수 X ' 의 X 의 공분산 행렬 것을 의미 X는 대각 행렬을 향해 축소된다? 이것은 내가 생각하는 순수한 선형 대수 문제입니다. λIDXXX
Heisenberg

3
@Heisenberg가 아니라, 의 공분산 행렬 인 X (a까지 1 / N의 스케일링 인자). β를 계산 하려면이 공분산 행렬을 뒤집어 야합니다. 릿지 회귀에서는, 반전 X X + λ I 대신에, 하나는 볼 수 있도록 X X + λ I를 공분산 행렬의 추정을 정규화한다. 이제 용어 λ 내가 가진 대각 행렬이다 λ 대각선은. λ 가 매우 크다고 상상해보십시오 . 그 합은 대각선 λ에 의해 지배됩니다XXX1/NβXX+λIXX+λIλIλλ 이므로 정규화 된 공분산은 λ가 커짐에 따라점점 더 대각선이됩니다. λIλ
amoeba 말한다 Reinstate Monica

wrt Q5, 통계 학습의 요소는 이미지 처리 응용 프로그램의 부드러움 제약을 고려합니다 (PDA-447 페이지)
seanv507

10

질문 4에 대한 추가 의견. 실제로, 능선 회귀는 의 작은 고유 값을 상당히 효과적으로 처리 하면서 대부분 큰 고유 값 만 남겨 둡니다. XTX

이를 확인하려면 릿지 회귀 추정량을 의 특이 값 분해로 표현하십시오 . X

X=i=1nσiuiviT

를 Where 벡터는 서로 직교하며 브이 I의 벡터는, 서로 직교한다. 여기서 X T X 의 고유 값 은 σ 2 i , i = 1 , 2 , , n 입니다. uiviXTXσi2i=1,2,,n

그럼 당신은 그것을 보여줄 수 있습니다

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

이제 "필터 팩터" . 경우 λ = 0 , 그 필터 계수는 1이며, 우리가 종래의 최소 제곱 해를 얻는다. 만약 λ > 0σ 2 I » λ , 그 필터 계수는 본질적으로 (1) 경우이다 σ 2 I « λ 이들에 대응하는 반면,이 요소는, 0 따라서 작은 고유 값에 대응하는 조건을 효과적으로 떨어 본질적 더 큰 고유 값이 유지됩니다. σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

이와 비교하여 주성분 회귀 분석은이 공식에서 단순히 1 (큰 고유 값의 경우) 또는 0 (작은 고유 값의 계수)을 사용합니다.


1
그것이 바로 내가 대답에서 간단히 언급 한 것이지만, 수학적으로 +1로 설명하고 설명하는 것이 매우 좋습니다.
amoeba는 Reinstate Monica가

5

XX

λx+y=κ(αx+(1α)y),
α=λ1+λ and κ=1+λ. If 0λ<+, it immediately follows that 0<α1.

The technique you describe as "attack[ing] only the singular or near singular values" is also known as Singular Spectrum Analysis (for the purpose of linear regression) (see Eq. 19), if by "attacking", you mean "removing". The cross-covariance is unchanged.

Removing low singular values is also done by Principal Component Regression. In PCR, a PCA is performed on X and a linear regression is applied on a selection of the obtained components. The difference with SSA is that it has an impact on the cross-covariance.


Thank you. In PCR covariance with y is calculated after the reduction of dimension is performed, no? Is that the difference between PCR and SSA? Your gamma (not mine), how do you select that so alpha will be [0,1] bounded?
Cagdas Ozgenc

1
Sorry about this confusing γ, I'm replacing it by a κ.
Vincent Guillemot

I think you are correct about the difference between SSA and PCR, we should write it down to be sure, though.
Vincent Guillemot
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.