페널티 선형 회귀의 기하학적 해석


26

선형 회귀는 "모든 점에 수직으로 가장 가까운 선" 으로 생각할 수 있습니다 .

여기에 이미지 설명을 입력하십시오

그러나 열 공간을 "계수 매트릭스의 열이 차지하는 공간으로의 투영" 으로 시각화하여이를 확인할 수있는 또 다른 방법이 있습니다 .

여기에 이미지 설명을 입력하십시오

내 질문은 :이 두 가지 해석에서 릿지 회귀LASSO 와 같은 페널티 선형 회귀를 사용하면 어떻게됩니까 ? 첫 번째 해석에서 라인은 어떻게됩니까? 그리고 두 번째 해석의 예측은 어떻게됩니까?

업데이트 : 의견에서 @JohnSmith는 계수의 공간에서 벌칙이 발생한다는 사실을 제기했습니다. 이 공간에도 해석이 있습니까?


1
나는 그런 해석을 할 수 있는지 확실하지 않습니다. 제공 한 것은 기능 및 응답의 원래 공간에있는 이미지이기 때문입니다. 그리고 불이익 회귀는 계수의 공간과 관련이 있으며, 이는 매우 다릅니다.
Dmitry Laptev

"모든 점에 수직으로 가장 가까운 선"? 하나는 보통 제곱의 합을 취합니다 . Wikipedia Coefficient_of_determination 의 멋진 그림을보십시오 . 수직 거리의 합은 L1 표준으로, 특이 치에 덜 민감하지만 훨씬 덜 일반적입니다.
데니스

답변:


21

내 회화 기술에 대해 유감스럽게 생각하며, 다음과 같은 직관을 제공 할 것입니다.

하자 목적 함수이다 (예를 들면, MSE 회귀의 경우). 이 함수의 등고선을 빨간색으로 상상해 봅시다 (물론 우리 는 단순함을 위해 공간에 페인트합니다. 및 ).에프(β)ββ1β2

빨간색 원의 가운데에는이 기능이 최소한 있습니다. 그리고이 최소값은 우리에게 처벌되지 않은 솔루션을 제공합니다.

이제 우리 는 등고선 플롯이 파란색으로 다른 객관적인 를 추가 합니다. LASSO 정규화 기 또는 릿지 회귀 정규화 기입니다. LASSO , 능선 회귀 ( 는 처벌입니다 매개 변수). 등고선 플롯은 함수가 고정 된 값을 갖는 영역을 보여줍니다. 따라서 가 클수록 성장 이 빨라지고 등고선 플롯이 "좁아집니다".(β)(β)=λ(|β1|+|β2|)(β)=λ(β12+β22)λλ(엑스)

이제이 두 목표의 합의 최소값을 찾아야합니다 : . 그리고 이것은 두 개의 등고선 플롯이 서로 만나면 달성됩니다.에프(β)+(β)

LASSO 및 릿지 회귀

페널티가 클수록 "더 좁은"파란색 윤곽선을 얻게되고 음모가 0에 가까운 지점에서 서로 만나게됩니다. 그 반대의 경우 : 패널티가 작을수록 윤곽이 확장되고 파란색과 빨간색 플롯의 교차점이 빨간색 원의 중심에 가까워집니다 (벌금이 부과되지 않은 솔루션).

그리고 릿지 회귀와 LASSO의 차이점을 크게 설명해주는 흥미로운 점이 있습니다. LASSO의 경우 두 개의 등고선 플롯이 정규화 기의 모서리 ( 또는 )를 충족 할 것입니다 . 능선 회귀의 경우에는 거의 해당되지 않습니다.β1=0β2=0

그렇기 때문에 LASSO가 희소 솔루션을 제공하여 일부 매개 변수를 정확히 만듭니다.0

매개 변수 영역에서 페널티 회귀가 어떻게 작동하는지에 대한 직관을 설명 할 수 있기를 바랍니다.


나는 당신이 한 것처럼 고전적인 그림으로 시작하는 것이 좋은 시작이라고 생각합니다. 이것을 실제로 이해 하려면 윤곽이 문제와 어떻게 관련되는지 설명하는 것이 도움이 될 것이라고 생각합니다. 특히 두 경우 모두 페널티가 작을수록 OLS 솔루션에 더 가까워지고 더 커질수록 순수한 인터셉트 모델에 가까워집니다. 한 가지 질문은, 이것이 당신의 모습에서 어떻게 나타 납니까?
추기경

그건 그렇고, 회화 기술은 괜찮아 보입니다.
추기경

귀하의 의견에 감사드립니다! 여기에서 모든 것이 직관적으로 간단합니다. 더 큰 페널티, "더 좁은"파란색 윤곽선 (그리고 두 플롯이 만나는 지점이 0에 가까움) 그 반대의 경우 : 패널티가 작을수록 플롯이 만나는 빨간색 원의 중심에 가까울수록 (OLS).
Dmitry Laptev

2
대답을 업데이트하고 더 정확한 표기법을 도입했습니다 . 파란 그림의 경우 , 처벌 매개 변수의 경우 . 그게 지금 당신의 걱정을 더 잘 설명합니까? (엑스)λ
Dmitry Laptev 2016 년

1
명확한 설명을 주셔서 감사합니다. 나는 목표의 최소 합이 서로 접하는 곳에서 발생한다는 것을 다른 곳에서 읽었습니다. f (\ beta) '= -g (\ beta)'이면 합의 도함수가 0이라는 것을 알 수 있습니다. 이것은 극한의 요구 사항입니다. 이것이 "두 개의 등고선 플롯이 서로 만날 때"라는 의미입니까?
odedbd

3

내가 가진 직감은 다음과 같습니다. 최소 제곱의 경우 모자 행렬은 직교 투영이므로 i 등합니다. 불이익을받은 경우 모자 매트릭스는 더 이상 i 등하 지 않습니다. 실제로, 그것을 여러 번 적용하면 계수가 원점으로 축소됩니다. 반면, 계수는 여전히 예측 변수의 범위에 있어야하므로 직교는 아니지만 여전히 투영입니다. 벌점 계수의 크기와 표준 유형은 원점을 향한 수축 거리와 방향을 제어합니다.


1
왜 vector 등성이 아닌지 알 수 없습니다. 벡터를 공간에 투영하면 (직교 투영이 아니더라도) 계수에 제약 조건을 적용하면이 투영 된 벡터의 새로운 투영이 이전과 다른 이유는 무엇입니까? 하나?
Lucas Reis 2016 년

1
직관적으로 : 두 번째로 벌점 제곱합을 최소화한다고 가정하십시오. 두 번째 최소화의 제곱합은 첫 번째 최소화의 제곱합보다 작습니다. 불이익을받은 계수의 표준의 상대적 중요성은 증가 할 것입니다. 릿지 회귀는 모자 행렬에 대해 멋진 닫힌 양식이 있으며 i 등성인지 직접 확인할 수있는 좋은 예입니다.
JohnRos 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.