희소 모델에 대해 L1 표준이 필요한 이유


97

선형 회귀에 관한 책을 읽고 있습니다. L1 및 L2 규범에 대한 문장이 있습니다. 나는 그것들을 알고 있습니다. 왜 L1 규범이 희소 모델인지 이해하지 못합니다. 누군가가 간단한 설명을 할 수 있습니까?


4
기본적으로 희소성은 등면의 축에있는 날카로운 모서리로 인해 유발됩니다. 내가 지금까지 찾은 최고의 그래픽 설명은이 비디오에 : youtube.com/watch?v=sO4ZirJh9ds
felipeduque

1
이 같은이 블로그 기사 chioka.in/...
프라 샨스

다음 매체 게시물을 확인하십시오. 도움이 될 것입니다 medium.com/@vamsi149/…
solver149

답변:


111

벡터 고려 작한다. 의 및 규범은 각각 다음과 같습니다.ε>0l1l2xx=(1,ε)R2ε>0l1l2x

||x||1=1+ε,  ||x||22=1+ε2

이제, 일부 정규화 과정의 일환으로, 우리의 요소 중 하나의 크기 줄이기 위하여려고하고 있다고 의해 . 을 변경 하면 결과 규범은 δεx11-δxδεx11δ

||x(δ,0)||1=1δ+ε,  ||x(δ,0)||22=12δ+δ2+ε2

반면에, 를 만큼 줄이면 규범이된다 δx2δ

||x(0,δ)||1=1δ+ε,  ||x(0,δ)||22=12εδ+δ2+ε2

여기서 주목할 것은 페널티의 경우 더 큰 항 정규화하면 더 작은 항 비해 규범이 훨씬 크게 감소한다는 것 입니다. 를 들어 벌금, 그러나, 감소는 동일합니다. 사용하여 모델을 처벌 할 때 따라서, 규범, 그것의 감소 때문에 아무것도 이제까지 0으로 설정 될 가능성이 매우 가능성이 규범에서 진행 에 경우는 거의 존재하지 않는다 작다. 반면, 기준 의 감소 는 항상x 1 x 20 l 1 l 2 l 2 ε 0 ε l 1 δl2x1x20l1l2l2ε0εl1δ수량에 상관없이

그것을 생각하는 또 다른 방법 : 위약금은 희소성을 장려하는 것이 아니라, 어떤 의미에서 위약금은 요소가 0에 가까워 질수록 감소하는 수익률 을 희소성을 억제 합니다.l 2l1l2


3
답변 주셔서 감사합니다! 그러나 마지막 요점은 확신하지 못합니다. 불이익을받지 않는 선형 회귀를 실행하면 L1 페널티를 추가하면 희소성이 생기는 경우가 거의 없습니다. 따라서 L1 처벌은 실제로 0에서 0에 가까운 계수를 전송하여 희소성을 장려합니다.
Stefan Wager

2
@StefanWager는 약간 과장된 표현 일 수도 있지만 여기에 페널티 에는 특별한 것이 없다고 생각합니다 . 에 대한 페널티 도 희소성을 유발하지만 실제로는 덜 자주 볼 수 있습니다 (아마 볼록하지 않기 때문에). 정말로 희소성을 원한다면 페널티 (0이 아닌 항목 수에 비례)가 갈 길입니다. 일하는 것은 약간의 악몽입니다. l α α 1 l 0l1lαα1l0
bnaul

1
예-맞습니다. 희소성을 유발하는 많은 규범이 있습니다 (예를 들어, 언급 한 바와 같이 p <= 1 인 모든 Lp 규범). 일반적으로 0에 날카로운 모서리가있는 규범은 희소성을 유발합니다. 따라서 원래의 질문으로 돌아 가면 L1 규범은 0에서 불연속 구배를 가짐으로써 희소성을 유발합니다 (이 속성에 대한 다른 페널티도 마찬가지입니다).
Stefan Wager

3
누구나 더 많은 것을 읽고 싶다면 L1 규범의 대안이 아닌 볼록하지 않은 페널티 기능에 대한 활발한 문헌이 있습니다 (예를 들어, papers.nips.cc/paper/… ).
Stefan Wager

1
큰 대답 나는 이것을 발견 할 때까지 잠시 동안 궁금해하고있었습니다.
Hady Elsahar

72

희소 모델을 사용하면 많은 가중치가 0 인 모델을 생각할 수 있습니다. 따라서 L1 정규화가 0 가중치를 생성 할 가능성이 더 높은 이유를 살펴 보겠습니다.

모형은 가중치 이루어진 고려 .(w1,w2,,wm)

L1 정규화를 사용하면 손실 함수로 모델에 불이익을줍니다. = Σ i | w | .L1(w)Σi|wi|

L2 정규화를 사용하면 손실 함수 = 1로 모델에 불이익을줍니다.L2(w)12Σiwi2

그래디언트 디센트를 사용하는 경우 단계 크기 에 그래디언트를 곱한 상태 에서 가중치가 그래디언트의 반대 방향으로 반복적으로 변경됩니다 . 이것은 경사가 가파를수록 더 큰 걸음을 내딛는 반면, 경사도가 높을수록 더 작은 걸음을 내딛을 수 있습니다. 그라디언트 (L1의 경우 그라디언트)를 살펴 보겠습니다.η

, 여기서sign(w)=(w1dL1(w)dw=sign(w)sign(w)=(w1|w1|,w2|w2|,,wm|wm|)

dL2(w)dw=w

손실 함수를 플로팅하고 단일 매개 변수로 구성된 모델에 대한 미분 인 경우 L1의 경우 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

L2의 경우 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

L1w1=0L2

모델로 시작하고 한다고 상상해보십시오.w1=5η=12w1:=w1ηdL1(w)dw=w1121w1=0

여기에 이미지 설명을 입력하십시오

대조적으로, L2- 규정 화η=12w1w1:=w1ηdL2(w)dw=w112w1

여기에 이미지 설명을 입력하십시오

η


3
η=0.5
wfirst step=0.10.5(+1)=>w=0.4
wsecondstep=0.40.5(1)=0.1.

5
@AlexYashin 맞음-L1 정규화를 기반으로 가중치 만 업데이트 한 경우 가중치가 0에 가까워지는 가중치가 생길 수 있습니다. 그러나 정규화만으로는 가중치를 조정하지 않습니다. 손실 함수 최적화와 함께 정규화를 사용합니다. 그런 식으로 정규화는 가중치를 0으로 푸시하는 동시에 가중치를 예측을 최적화하는 값으로 푸시하려고 시도합니다. 두 번째 측면은 학습 속도입니다. 학습률이 낮을수록 정규화가 무시할 수있는 가치에 너무 가까워 질 수 있습니다.
Kent Munthe Caspersen

1
dL2(w)/dw선형이 아닌 '모듈'입니까?
mrgloom

1
@mrgloom dL2(w)/dwL2(w)체중 변화에 따른 변화 로 읽을 수 있습니다 . L2 정규화는 가중치를 제곱하기 때문에 가중치 L2(w)가 높을 때 동일한 가중치 변경에 대해 훨씬 더 많이 변경됩니다. 이것이 플로팅 할 때 함수가 볼록한 이유입니다. 그러나 L1 L1(w)의 경우 가중치 변경에 따른 가중치 변경은 가중치에 관계없이 동일합니다. 이는 선형 함수로 이어집니다.
Kent Munthe Caspersen

1
@KentMuntheCaspersen 놀라운 설명! 그래프와 이것을 직관적으로 만들기 위해 투자 한 노력에 감사합니다!
layser

15

Hastie, Tibshirani 및 Friedman 의 통계 학습 요소의 그림 3.11 은 매우 예시 적입니다.여기에 이미지 설명을 입력하십시오

β^β1β2β^L1L2) 회귀. 경험적으로 각 방법에 대해 우리는 실현 가능성을 유지하면서 오류 기능을 최소화하기 위해 빨간색 타원과 파란색 영역의 교차점을 찾고 있습니다.

L1


16
그림은 추가 정보가 없으면 설득력이 없습니다. 예를 들어 왜 오류의 윤곽선이 그림에서 어디에 위치해야합니까?
wabbit 2016 년

@HrishikeshGanu 결국 게시물을 편집 할 시간이있었습니다.
Zhanxiong

모든 윤곽은 ... 같은 형태를 가질 것
kjetil B 형 할보 르센

1
β^β1β2β1=β2

13

β^β^1(β^)<t2(β^)<t

11{x:1(x)1}

보다 일반적으로,이 책은이 주제에 대한 좋은 참고 자료입니다 : 엄격하고 잘 설명 된 훌륭한 설명.


3
나는 당신의 두 번째 문단이 핵심이라고 생각합니다. 적어도 내 직감의 경우 : l1 "공"은 축을 따라 뾰족한 다이아몬드와 더 비슷합니다. 즉, 충돌하는 구속 된 초평면이 영점을 가질 가능성이 더 높습니다. 축.
Wayne

2
β^1212β^

3
이 책은 훌륭하지만 어디에서 왔으며 그 뒤에 수학이 설명되어 있지 않습니다.
user13985

2

수학 이외의 간단한 대답은 다음과 같습니다.

L2의 경우 : 페널티 항은 제곱 이므로 작은 값을 제곱하면 작게 만듭니다. 최소 제곱 오차를 얻는 목표를 달성하기 위해 0으로 만들 필요는 없습니다.

L1의 경우 : 페널티 용어는 절대 , 우리는 할 수 할 필요가 제로로 이동 이없는 것처럼 작은 작게 할 촉매 .

이것은 내 관점이다.


나에게 설득력이 없습니다.
Tyler 十三 将士 归 玉门

2

L1 규범 vs L2 규범

이미지는 L1 및 L2 Norm이 차지하는 영역의 모양을 보여줍니다. 두 번째 이미지는 다양한 회귀 문제에 대한 다양한 그라데이션 하강 윤곽으로 구성됩니다. 모든 등고선 그림에서 릿지 또는 L2 규범과 교차하는 빨간색 원을 관찰하십시오. 교차점이 축에 없습니다. 모든 윤곽의 검은 색 원은 L1 Norm 또는 Lasso와 교차하는 원을 나타냅니다. 축과 상대적으로 가깝습니다. 결과적으로 계수를 0으로 만들고 피처를 선택합니다. 따라서 L1 표준은 모델을 성기 게합니다.

다음 링크에서보다 자세한 설명 : 데이터 과학으로 게시 클릭


2β1=1β1=0L1
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.