이것은 분산에 관한 것입니다
OLS는 BLUE ( Best Linear Unbiased Estimator )를 제공합니다. 합니다. 즉, 다른 편견이없는 추정량을 사용하면 OLS 솔루션보다 분산이 더 커집니다. 그렇다면 왜 지구상에서 그 밖의 다른 것을 고려해야합니까?
이제 올가미 또는 릿지와 같은 정규화의 요령은 편차를 줄이기 위해 약간의 편향을 추가하는 것입니다. 당신의 예측 오차를 추정 할 때 때문에, A는 세 가지의 조합 :
E [ ( y− f^( x ) )2] = 바이어스 [ f^( x ) ) ]2+ Var [ f^( x ) ) ] + σ2
마지막 부분은 돌이킬 수없는 오류이므로 제어 할 수 없습니다. OLS 솔루션을 사용하면 바이어스 항은 0입니다. 그러나 두 번째 용어가 클 수도 있습니다. 편견을 추가하고 분산을 줄이는 것이 좋습니다 (
좋은 예측을 원한다면 ).
그래서 무엇 ? 모형의 모수에 대한 추정치에 도입 된 분산입니다. 선형 모형은
y = X β + ϵ 형식입니다 .바르 [ f^( x ) ) ]
OLS 솔루션을 얻기 위해 최소화 문제
arg min β | | y - X β | | (2)
이 용액을 제공
β OLS =를 ( X T X ) - 1 X T Y
릿지 회귀의 최소화 문제는 유사하다 :
ARG 분 β | | y - X β | |
y = X β+ ϵ ,ϵ ∼ N( 0 , σ2나는)
인수분β| | y - X β| |2
β^OLS= ( X티X )− 1엑스티와이
이제 용액된다
β 릿지 = ( X T X + λ I ) - 1 X T Y
우리는이 추가되도록
λ I 그 우리 반전 매트릭스의 대각선 (리지라고 불리는). 이것이 매트릭스
X T X 에 미치는 영향은 매트릭스의 결정자를 0으로부터 멀어지게
잡아 당긴다는 것입니다. 따라서 뒤집을 때 큰 고유 값을 얻지 못합니다. 그러나 이는 또 다른 흥미로운 사실, 즉 모수 추정치의 분산이 낮아진다는 사실로 이어집니다.
인수분β| | y - X β| |2+ λ | | β| |2λ > 0
β^산등성이= ( X티X +λI)− 1엑스티와이
λ I엑스티엑스
이보다 더 명확한 대답을 제공 할 수 있는지 확실하지 않습니다. 이 모든 것이 요약되는 것은 모형의 모수에 대한 공분산 행렬과 해당 공분산 행렬에있는 값의 크기입니다.
나는 능선 회귀를 예로 들었습니다. 왜냐하면 치료하기가 훨씬 쉽기 때문입니다. 올가미는 훨씬 더 어려우며 해당 주제에 대한 지속적인 연구 가 진행되고 있습니다.
이 슬라이드 는 더 많은 정보를 제공 하며이 블로그 에도 관련 정보가 있습니다.
편집 : 능선을 추가하여 결정자가 0에서 " 당겨져 " 있다는 것을 의미 합니까?
엑스티엑스
데트 ( X티X −tI) = 0
티데트 ( X티X +λI− t I) = 0
데트 ( X티X -(t-λ)I) = 0
( t − λ )티나는티나는+ λλ
다음은이를 설명하기위한 R 코드입니다.
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
결과는 다음과 같습니다.
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
따라서 모든 고유 값이 정확히 3만큼 증가합니다.
Gershgorin circle 정리를 사용하여 이를 일반적으로 증명할 수도 있습니다 . 고유 값을 포함하는 원의 중심은 대각선 요소입니다. 항상 대각선 요소에 "충분히"추가하여 모든 원을 양의 실제 반평면으로 만들 수 있습니다. 그 결과는 더 일반적이며 이것에는 필요하지 않습니다.