올가미가 변수 선택을 제공하는 이유는 무엇입니까?

나는 통계 학습의 요소를 읽고 있었고 , 올가미가 변수 선택을 제공하고 능선 회귀가 그렇지 않은 이유를 알고 싶습니다.

두 방법 모두 잔차 제곱합을 최소화하고 매개 변수 의 가능한 값을 제한합니다 . 올가미의 경우 제약 조건은 이며, 능선의 경우 일부 입니다. $\beta$ $||\beta||_1 \le t$ $||\beta||_2 \le t$ $t$

나는 책에서 다이아몬드 대 타원 그림을 보았고 왜 올가미가 제한된 영역의 모서리를 칠 수 있는지에 대한 직관이 있습니다. 이는 계수 중 하나가 0으로 설정되어 있음을 의미합니다. 그러나 내 직감이 다소 약해서 확신이 없습니다. 보기 쉬워야하지만 이것이 왜 사실인지 모르겠습니다.

따라서 수학적 칭의를 찾고 있거나 잔차 제곱합의 윤곽이 제한 영역 의 모서리에 닿는 이유에 대한 직관적 인 설명을 찾고있는 것 같습니다 (이 상황은 제약 조건은 ). $||\beta||_1$ $||\beta||_2$

— 지자 오
소스

아래의 모든 답변은 좋은 설명입니다. 그러나 시각적으로 표현 된 기사를 작성했습니다. 다음은 링크 medium.com/@vamsi149/…

— solver149 22.

답변:

매우 간단한 모델 인 고려해 봅시다 . 에 L1 페널티가 있고 에 최소 제곱 손실 함수가 있습니다. 표현식을 확장하여 다음과 같이 최소화 할 수 있습니다. $y = \beta x + e$ $\hat{\beta}$ $\hat{e}$

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

최소 제곱 솔루션이 일부 이라고 가정하고 이라고 가정 하고 L1 페널티를 추가하면 어떻게되는지 봅시다. 로 , 이므로 페널티 항은 . 목적 함수 wrt 의 파생어 는 다음과 같습니다. $\hat{\beta} > 0$ $y^Tx > 0$ $\hat{\beta}>0$ $|\hat{\beta}| = \hat{\beta}$ $2\lambda\beta$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

분명히 솔루션이 있습니다 . $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$

분명히 증가시킴으로써 우리 운전할 수 (0으로 ). 그러나 일단 이면 를 늘리면 음수로 이지 않습니다. 느슨하게 쓰면 가 음수가되어 목적 함수의 파생어가 다음과 같이 변경되기 때문입니다. $\lambda$ $\hat{\beta}$ $\lambda = y^Tx$ $\hat{\beta} = 0$ $\lambda$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

여기서 의 부호가 것은 페널티 용어의 절대적인 가치 특성 때문입니다. 경우 마이너스가 패널티 기간은 동일하게 및 유도체 WRT 복용 의 결과 . 이는 솔루션으로 연결 되며 과 명백하게 일치하지 않습니다 (최소 제곱 솔루션 ) 이는 및 $\lambda$ $\beta$ $-2\lambda\beta$ $\beta$ $-2\lambda$ $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ $\hat{\beta} < 0$ $> 0$ $y^Tx > 0$ $\lambda > 0$ ). 을 에서 이동할 때 L1 페널티가 증가하고 제곱 오차 항이 증가합니다 (최소 제곱 솔루션에서 멀어짐에 따라) . 따라서 우리는 그렇지 않습니다. 에 스틱 . $\hat{\beta}$ $0$ $< 0$ $\hat{\beta}=0$

최소 제곱 솔루션에 대해 적절한 부호 변경을 통해 동일한 논리가 적용됨을 직관적으로 분명히해야합니다 . $\hat{\beta} < 0$

그러나 최소 제곱 페널티 미분은 다음과 같습니다. $\lambda\hat{\beta}^2$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

분명히 솔루션이 있습니다 . 분명히 증가는 이것을 0으로 만들지 것입니다. 따라서 L2 페널티는 " 보다 작은 경우 모수 추정값을 0으로 설정"과 같은 약간의 광고가 없으면 변수 선택 도구로 사용할 수 없습니다 . $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ $\lambda$ $\epsilon$

다변량 모델로 이동할 때 상황이 바뀔 수 있습니다. 예를 들어, 하나의 모수 추정값을 이동하면 다른 모수 추정값이 부호를 변경시킬 수 있지만 일반적인 원리는 동일합니다. 매우 지능적으로 작성하면 실제로는 에 대한 표현식의 "분모"에 추가 되지만 L1 페널티 함수는 실제로 "분자"에 추가되기 때문에 가능합니다. $\hat{\beta}$

— 보보 맨
소스

Lasso는 비선형 모델의 경우 기능 선택을 제공합니까 (예 : NN)?

— Ilya

작은 후속 질문 : 가 벡터이고 가 스칼라 인 경우 어떻게 될 수 있습니까?

λ = y^{T} x

$\lambda = y^Tx$

y^{T} x

$y^Tx$

λ

$\lambda$

— Jekaterina Kokatjuhha 2016 년

일 변량 예제를 사용하고 있으므로 는 스칼라입니다. 다변량 문제를 해결하는 경우 는 어떤 문제가 해결되는지에 따라 길이 = 크기 또는 적절한 크기의 단위 행렬 을 갖는 벡터로 곱합니다 . 예를 들어 = 의 L2-norm을 지적 하고 위의 공식을 대체하여 문제를 해결할 수 있습니다 .

y^{T} x

$y^Tx$

λ

$\lambda$

β

$\beta$

z

$z$

z^{T} I z

$z^T\text{I}z$

— jbowman

이 논리의 비트를 따를 수 없기 때문에 페널티 함수의 절대적인 특성으로 인해 람다의 부호가 뒤집히는 방법을 (수학적으로) 보여줄 수 있습니까?

— user1420372

@ user1420372-완료했습니다. 당신이 무슨 생각을하는지 제게 알려주세요.

— jbowman

y = 1이고 x = [1/10 1/10] (하나의 데이터 포인트, 두 개의 피쳐)로 설정된 데이터가 있다고 가정합니다. 한 가지 해결책은 기능 중 하나를 선택하는 것이고 다른 기능은 두 기능 모두에 가중치를 부여하는 것입니다. 즉, w = [5 5] 또는 w = [10 0]을 선택할 수 있습니다.

L1 규범의 경우 둘 다 동일한 페널티가 있지만, 더 넓게 퍼져 나가는 무게는 L2 규범에 대한 페널티가 더 낮습니다.

— 블라 그
소스

나는 이미 훌륭한 대답이 있다고 생각하지만 기하학적 해석에 관한 직관을 추가하기 만하면됩니다.

"올가미는 수축을 수행 하여 구속 조건에"모퉁이 "가 있고 2 차원에서 다이아몬드에 해당합니다. 사각형의 합이이 모서리 중 하나를"적중 "하면 축에 해당하는 계수가 줄어 듭니다. 0으로 $L1$

마찬가지로 증가 다차원 다이아몬드 모서리의 증가를 가지며, 그래서 어떤 계수를 0과 동일하게 설정 될 가능성이 크다. 따라서 올가미는 수축 및 (효과적으로) 서브 세트 선택을 수행합니다. $p$

서브 세트 선택과 달리 릿지는 부드러운 임계 값을 수행합니다. 평활화 매개 변수가 변경되면 추정값의 샘플 경로가 계속 0으로 이동합니다. "

출처 : https://onlinecourses.science.psu.edu/stat857/book/export/html/137

컬러 선이 0으로 축소되는 회귀 계수의 경로 인 경우 효과를 멋지게 시각화 할 수 있습니다.