능선 회귀가 올가미처럼 일부 계수를 0으로 축소하지 않는 이유는 무엇입니까?


16

LASSO 회귀를 설명 할 때 다이아몬드와 원의 다이어그램이 종종 사용됩니다. LASSO의 구속 조건의 모양이 다이아몬드이기 때문에, 가장 작은 제곱 솔루션은 다이아몬드의 모서리에 닿아 일부 변수가 축소 될 수 있다고합니다. 그러나 능선 회귀에서는 원이기 때문에 종종 축에 닿지 않습니다. 축을 건드릴 수 없거나 LASSO보다 특정 매개 변수를 축소 할 가능성이 낮은 이유를 이해할 수 없었습니다. 무엇보다 LASSO와 릿지가 보통 최소 제곱보다 분산이 낮은 이유는 무엇입니까? 위의 능선과 LASSO에 대한 이해이며 잘못되었을 수 있습니다. 누군가이 두 회귀 분석법이 왜 분산이 더 작은 지 이해하도록 도울 수 있습니까?



1
굵게 표시된 분산 부분은 적어도이 질문과 중복되지 않습니다. 이 질문에 초점을 맞추기 위해이 질문을 편집 할 수도 있습니다.
Juho Kokkala


내가 책을 읽고 @fcop하지만 난 꽤 수학을 이해하지 않는
user10024395

그러나 그림을 이해하려면 수학이 필요하지 않습니까?

답변:


26

이것은 분산에 관한 것입니다

OLS는 BLUE ( Best Linear Unbiased Estimator )를 제공합니다. 합니다. 즉, 다른 편견이없는 추정량을 사용하면 OLS 솔루션보다 분산이 더 커집니다. 그렇다면 왜 지구상에서 그 밖의 다른 것을 고려해야합니까?

이제 올가미 또는 릿지와 같은 정규화의 요령은 편차를 줄이기 위해 약간의 편향을 추가하는 것입니다. 당신의 예측 오차를 추정 할 때 때문에, A는 세 가지의 조합 :

이자형[(와이에프^(엑스))2]=편견[에프^(엑스))]2+바르[에프^(엑스))]+σ2
마지막 부분은 돌이킬 수없는 오류이므로 제어 할 수 없습니다. OLS 솔루션을 사용하면 바이어스 항은 0입니다. 그러나 두 번째 용어가 클 수도 있습니다. 편견을 추가하고 분산을 줄이는 것이 좋습니다 ( 좋은 예측을 원한다면 ).

그래서 무엇 ? 모형의 모수에 대한 추정치에 도입 된 분산입니다. 선형 모형은 y = X β + ϵ 형식입니다 .바르[에프^(엑스))] OLS 솔루션을 얻기 위해 최소화 문제 arg min β | | y - X β | | (2) 이 용액을 제공 β OLS =를 ( X T X ) - 1 X T Y 릿지 회귀의 최소화 문제는 유사하다 : ARG β | | y - X β | |

와이=엑스β+ϵ,ϵ(0,σ2나는)
인수β||와이엑스β||2
β^OLS=(엑스엑스)1엑스와이
이제 용액된다 β 릿지 = ( X T X + λ I ) - 1 X T Y 우리는이 추가되도록 λ I 그 우리 반전 매트릭스의 대각선 (리지라고 불리는). 이것이 매트릭스 X T X 에 미치는 영향은 매트릭스의 결정자를 0으로부터 멀어지게잡아 당긴다는 것입니다. 따라서 뒤집을 때 큰 고유 값을 얻지 못합니다. 그러나 이는 또 다른 흥미로운 사실, 즉 모수 추정치의 분산이 낮아진다는 사실로 이어집니다.
인수β||와이엑스β||2+λ||β||2λ>0
β^산등성이=(엑스엑스+λ나는)1엑스와이
λ나는엑스엑스

이보다 더 명확한 대답을 제공 할 수 있는지 확실하지 않습니다. 이 모든 것이 요약되는 것은 모형의 모수에 대한 공분산 행렬과 해당 공분산 행렬에있는 값의 크기입니다.

나는 능선 회귀를 예로 들었습니다. 왜냐하면 치료하기가 훨씬 쉽기 때문입니다. 올가미는 훨씬 더 어려우며 해당 주제에 대한 지속적인 연구진행되고 있습니다.

이 슬라이드 는 더 많은 정보를 제공 하며이 블로그 에도 관련 정보가 있습니다.

편집 : 능선을 추가하여 결정자가 0에서 " 당겨져 " 있다는 것을 의미 합니까?

엑스엑스

데트(엑스엑스나는)=0
데트(엑스엑스+λ나는나는)=0
데트(엑스엑스(λ)나는)=0
(λ)나는나는+λλ

다음은이를 설명하기위한 R 코드입니다.

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

결과는 다음과 같습니다.

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

따라서 모든 고유 값이 정확히 3만큼 증가합니다.

Gershgorin circle 정리를 사용하여 이를 일반적으로 증명할 수도 있습니다 . 고유 값을 포함하는 원의 중심은 대각선 요소입니다. 항상 대각선 요소에 "충분히"추가하여 모든 원을 양의 실제 반평면으로 만들 수 있습니다. 그 결과는 더 일반적이며 이것에는 필요하지 않습니다.


결정자가 0에서 (수학적으로) 멀어지는 방법을 설명 할 수 있습니까? 감사합니다
user10024395

@ user2675516 내 답변을 편집했습니다.
Gumeo

"즉, 다른 편견없는 추정값을 취하면 OLS 솔루션보다 분산이 더 높아야합니다." 당신은 OLS보다 더 높은 편견을 의미합니까? 나는 OLS가 바이어스가 가장 적기 때문에 다른 것이 더 높은 바이어스를 가질 것이라고 생각했습니다. Pls 명확히
GeorgeOfTheRF

@ML_Pro OLS는 바이어스가없고 바이어스되지 않은 모든 추정기 중에서 가장 작은 편차를 갖습니다. 이것은 정리 입니다. 따라서 다른 것을 선택하면 분산이 증가합니다. 그러나 정규화하면 편견이 생깁니다.
Gumeo

감사! 당신의 응답은 나를 궁금하게 만들었습니다. 내가 만든이 새로운 질문에 대답 할 수 있습니까? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF

2

릿지 회귀

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

이 방정식을 지금은 하나의 β에 대해서만 해결하고 후자는 이것을 일반화 할 수 있습니다.

따라서 (y-xβ) ^ 2 + λβ ^ 2 이것은 하나의 β에 대한 식입니다.

우리의 목표는 위의 방정식을 최소화하고, 이것을 할 수 있도록, 이것을 0으로 동일시하고 미분 wrt β를 취하는 것입니다.

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- (ab) ^ 2 확장 사용

부분 파생 상품

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

드디어

β = xy / (x ^ 2 + λ)

분모를 관찰하면 λ 값 (예 : 하이퍼 파라미터)을 추가하기 때문에 분모가 0이되지 않습니다. 따라서 β의 값은 가능한 한 낮아 지지만 0이되지는 않습니다.

LASSO 회귀 :

L1 = (y-xβ) ^ 2 + λ∑ | β |

이 방정식을 지금은 하나의 β에 대해서만 해결하고 후자는 더 많은 β로 일반화 할 수 있습니다.

그래서, (y-xβ) ^ 2 + λβ 이것은 하나의 β에 대한 방정식입니다. 여기서 나는 ve의 + ve 값을 고려했습니다.

우리의 목표는 위의 방정식을 최소화하고, 이것을 할 수 있도록, 이것을 0으로 동일시하고 미분 wrt β를 취하는 것입니다.

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- (ab) ^ 2 확장 사용

부분 파생 상품

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

드디어

β = (2xy-λ) / (2X ^ 2)

분자를 관찰하면 λ의 일부 값 (예 : 하이퍼 매개 변수)을 빼기 때문에 0이됩니다. 따라서 β 값은 0으로 설정됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.