올가미가 변수 선택을 제공하는 이유는 무엇입니까?


76

나는 통계 학습의 요소를 읽고 있었고 , 올가미가 변수 선택을 제공하고 능선 회귀가 그렇지 않은 이유를 알고 싶습니다.

두 방법 모두 잔차 제곱합을 최소화하고 매개 변수 의 가능한 값을 제한합니다 . 올가미의 경우 제약 조건은 이며, 능선의 경우 일부 입니다.β||β||1t||β||2tt

나는 책에서 다이아몬드 대 타원 그림을 보았고 왜 올가미가 제한된 영역의 모서리를 칠 수 있는지에 대한 직관이 있습니다. 이는 계수 중 하나가 0으로 설정되어 있음을 의미합니다. 그러나 내 직감이 다소 약해서 확신이 없습니다. 보기 쉬워야하지만 이것이 왜 사실인지 모르겠습니다.

따라서 수학적 칭의를 찾고 있거나 잔차 제곱합의 윤곽이 제한 영역 의 모서리에 닿는 이유에 대한 직관적 인 설명을 찾고있는 것 같습니다 (이 상황은 제약 조건은 ).||β||1||β||2


아래의 모든 답변은 좋은 설명입니다. 그러나 시각적으로 표현 된 기사를 작성했습니다. 다음은 링크 medium.com/@vamsi149/…
solver149 22.

답변:


70

매우 간단한 모델 인 고려해 봅시다 . 에 L1 페널티가 있고 에 최소 제곱 손실 함수가 있습니다. 표현식을 확장하여 다음과 같이 최소화 할 수 있습니다.y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

최소 제곱 솔루션이 일부 이라고 가정하고 이라고 가정 하고 L1 페널티를 추가하면 어떻게되는지 봅시다. 로 , 이므로 페널티 항은 . 목적 함수 wrt 의 파생어 는 다음과 같습니다.β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

분명히 솔루션이 있습니다 . β^=(yTxλ)/(xTx)

분명히 증가시킴으로써 우리 운전할 수 (0으로 ). 그러나 일단 이면 를 늘리면 음수로 이지 않습니다. 느슨하게 쓰면 가 음수가되어 목적 함수의 파생어가 다음과 같이 변경되기 때문입니다.λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

여기서 의 부호가 것은 페널티 용어의 절대적인 가치 특성 때문입니다. 경우 마이너스가 패널티 기간은 동일하게 및 유도체 WRT 복용 의 결과 . 이는 솔루션으로 연결 되며 과 명백하게 일치하지 않습니다 (최소 제곱 솔루션 ) 이는 및λβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). 을 에서 이동할 때 L1 페널티가 증가하고 제곱 오차 항이 증가합니다 (최소 제곱 솔루션에서 멀어짐에 따라) . 따라서 우리는 그렇지 않습니다. 에 스틱 .β^0<0β^=0

최소 제곱 솔루션에 대해 적절한 부호 변경을 통해 동일한 논리가 적용됨을 직관적으로 분명히해야합니다 . β^<0

그러나 최소 제곱 페널티 미분은 다음과 같습니다.λβ^2

2yTx+2xTxβ^+2λβ^

분명히 솔루션이 있습니다 . 분명히 증가는 이것을 0으로 만들지 것입니다. 따라서 L2 페널티는 " 보다 작은 경우 모수 추정값을 0으로 설정"과 같은 약간의 광고가 없으면 변수 선택 도구로 사용할 수 없습니다 . β^=yTx/(xTx+λ)λϵ

다변량 모델로 이동할 때 상황이 바뀔 수 있습니다. 예를 들어, 하나의 모수 추정값을 이동하면 다른 모수 추정값이 부호를 변경시킬 수 있지만 일반적인 원리는 동일합니다. 매우 지능적으로 작성하면 실제로는 에 대한 표현식의 "분모"에 추가 되지만 L1 페널티 함수는 실제로 "분자"에 추가되기 때문에 가능합니다. β^


Lasso는 비선형 모델의 경우 기능 선택을 제공합니까 (예 : NN)?
Ilya

작은 후속 질문 : 가 벡터이고 가 스칼라 인 경우 어떻게 될 수 있습니까? λ=yTxyTxλ
Jekaterina Kokatjuhha 2016 년

일 변량 예제를 사용하고 있으므로 는 스칼라입니다. 다변량 문제를 해결하는 경우 는 어떤 문제가 해결되는지에 따라 길이 = 크기 또는 적절한 크기의 단위 행렬 을 갖는 벡터로 곱합니다 . 예를 들어 = 의 L2-norm을 지적 하고 위의 공식을 대체하여 문제를 해결할 수 있습니다 . yTxλβzzTIz
jbowman

이 논리의 비트를 따를 수 없기 때문에 페널티 함수의 절대적인 특성으로 인해 람다의 부호가 뒤집히는 방법을 (수학적으로) 보여줄 수 있습니까?
user1420372

@ user1420372-완료했습니다. 당신이 무슨 생각을하는지 제게 알려주세요.
jbowman

9

y = 1이고 x = [1/10 1/10] (하나의 데이터 포인트, 두 개의 피쳐)로 설정된 데이터가 있다고 가정합니다. 한 가지 해결책은 기능 중 하나를 선택하는 것이고 다른 기능은 두 기능 모두에 가중치를 부여하는 것입니다. 즉, w = [5 5] 또는 w = [10 0]을 선택할 수 있습니다.

L1 규범의 경우 둘 다 동일한 페널티가 있지만, 더 넓게 퍼져 나가는 무게는 L2 규범에 대한 페널티가 더 낮습니다.


8

나는 이미 훌륭한 대답이 있다고 생각하지만 기하학적 해석에 관한 직관을 추가하기 만하면됩니다.

"올가미는 수축을 수행 하여 구속 조건에"모퉁이 "가 있고 2 차원에서 다이아몬드에 해당합니다. 사각형의 합이이 모서리 중 하나를"적중 "하면 축에 해당하는 계수가 줄어 듭니다. 0으로L1

마찬가지로 증가 다차원 다이아몬드 모서리의 증가를 가지며, 그래서 어떤 계수를 0과 동일하게 설정 될 가능성이 크다. 따라서 올가미는 수축 및 (효과적으로) 서브 세트 선택을 수행합니다.p

서브 세트 선택과 달리 릿지는 부드러운 임계 값을 수행합니다. 평활화 매개 변수가 변경되면 추정값의 샘플 경로가 계속 0으로 이동합니다. "

출처 : https://onlinecourses.science.psu.edu/stat857/book/export/html/137

컬러 선이 0으로 축소되는 회귀 계수의 경로 인 경우 효과를 멋지게 시각화 할 수 있습니다.

여기에 이미지 설명을 입력하십시오

"릿지 회귀는 모든 회귀 계수를 0으로 축소합니다. 올가미는 0의 회귀 계수를 제공하는 경향이 있으며 희소 한 솔루션으로 이어집니다."

여기에 이미지 설명을 입력하십시오

출처 : https://onlinecourses.science.psu.edu/stat857/node/158

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.