Laplace가 왜 스파 스 솔루션을 생성합니까?


22

나는 정규화에 관한 문헌을 살펴 보았고 L2 규제를 가우시안과 연결하고 L1을 0으로 중심으로 한 L1을 연결하는 단락을 종종 볼 수 있습니다.

나는 이러한 이전의 모습을 알고 있지만 선형 모델의 가중치와 같이 어떻게 해석되는지 이해하지 못합니다. L1에서, 내가 올바르게 이해한다면, 우리는 희소 한 솔루션, 즉 일부 가중치가 정확히 0으로 푸시 될 것으로 예상합니다. L2에서는 가중치가 작지만 가중치는 0이 아닙니다.

그러나 왜 이런 일이 발생합니까?

더 많은 정보를 제공하거나 생각의 경로를 명확히해야한다면 의견을 말하십시오.



1
실제로 간단한 직관적 설명은 L2 규범을 사용할 때는 패널티가 감소하지만 L1 규범을 사용할 때는 감소하지 않는다는 것입니다. 따라서 손실 함수의 모델 부분을 거의 동일하게 유지하고 두 변수 중 하나를 줄임으로써 L2의 경우 절대 값이 높지만 L1의 경우가 아닌 변수를 줄이는 것이 좋습니다.
testuser

답변:


21

와 사전 라플라스 분포의 관계 평균 (또는 L1 규범)은 같은 전에 당신이 정상 분포로 평균이 아닌 평균을 추정하여 (Stingler 1986 또는 볼 것을 발견 라플라스 자신에 의해 발견 된 위키 백과 ). 이는 Laplace 오차 분포를 사용한 회귀가 중앙값 (예 : Quantile 회귀)을 추정하는 반면, 일반 오차는 OLS 추정을 나타냅니다.

귀하가 요청한 강력한 우선 순위는 또한 Tibshirani (1996)에 의해 설명되었습니다. Tibshirani (1996)는 베이지안 설정에서 강력한 올가미 회귀가 Laplace를 사용하는 것과 동등한 것으로 나타났습니다. 이러한 사전 계수는 0을 중심으로하고 (중심 변수가 있음) 꼬리가 넓습니다. 따라서 대부분의 회귀 계수는 정확히 0입니다. 아래 그림을 자세히 보면 Laplace 분포는 0 주위에 피크가 있고 (분포 질량이 더 큼) 정규 분포는 0 주위에 더 많이 분산되므로 0이 아닌 값은 확률 질량이 더 큽니다. 강력한 우선 순위에 대한 다른 가능성은 Cauchy 또는 분포입니다.

이러한 사전을 사용하면 많은 0 값의 계수, 일부 중간 크기 및 일부 큰 크기 (긴 꼬리)로 끝나는 경향이 있지만 보통 사전의 경우 정확히 0이 아닌 중간 크기의 계수가 더 많이 나타납니다. 또한 0에서 그리 멀지 않습니다.

여기에 이미지 설명을 입력하십시오

(이미지 출처 Tibshirani, 1996)


SM, Stigler (1986). 통계의 역사 : 1900 년 이전의 불확실성 측정. 케임브리지, MA : 하버드 대학 출판사의 Belknap Press.

Tibshirani, R. (1996). 올가미를 통한 회귀 수축 및 선택. 왕립 통계 학회지. 시리즈 B (방법론), 267-288.

Gelman, A., Jakulin, A., Pittau, GM 및 Su, Y.-S. (2008). 로지스틱 및 기타 회귀 모형에 대한 약한 유익한 기본 사전 분포입니다. 응용 통계 연보, 2 (4), 1360-1383.

노턴, RM (1984). 이중 지수 분포 : 미적분을 사용하여 최대 우도 추정값 찾기. 미국 통계 학자, 38 (2) : 135-136.


와우, 이것은 매우 좋은 설명이며, 정규화 규범이 모드, meadian 및 평균에 직관적으로 연결된 관련 질문에 대한 특별한 감사 덕분입니다.
Dmitry Smirnov

1
@Tim, Cauchy Distribution은 Heavy Tail을 갖지만 Zero의 확률은 정규 분포보다 작습니다. 그렇다면 어떻게 희박한 솔루션을 유도 할 수 있습니까?
Royi

4

빈번한 견해 👀

어떤 의미에서, 우리는 두 정규화를 "무게 축소" 로 생각할 수 있습니다 . L2는 가중치의 유클리드 표준을 최소화하고 L1은 맨해튼 표준을 최소화합니다. 이러한 사고 방식에 따라 L1과 L2의 등전위가 각각 구면과 다이아몬드 모양이므로 Lshop이 Bishop의 Pattern Recognition과 Machine Learning에 설명 된 것처럼 희소 솔루션으로 이어질 가능성이 높습니다 .

주교의 * 패턴 인식 및 기계 학습 *

베이지안보기 👀

그러나 사전이 선형 모델과 어떤 관련이 있는지 이해하려면 일반 선형 회귀 분석베이지안 해석 을 이해해야합니다 . 캐서린 베일리 (Katherine Bailey)의 블로그 포스트 는 이것에 대한 훌륭한 글입니다. 간단히 말해서 선형 모델에서 정상적으로 분포 된 iid 오류를 가정합니다.

와이=θ엑스+ϵ

와이나는,나는=1,2,,ϵ케이(0,σ)

와이

(와이|엑스,θ;ϵ)=(θ엑스,σ)

밝혀진 바와 같이 ... 최대 우도 추정치는 오차에 대한 정규성 가정 하에서 예측 된 출력 값과 실제 출력 값 사이의 제곱 오차를 최소화하는 것과 동일합니다.

θ^MLE=인수최대θ로그(와이|θ)=인수θ나는=1(와이나는θ엑스나는)2

가중치를 우선으로하는 정규화

선형 회귀 가중치에 대해 불균일 한 부분을 먼저 배치하는 경우 최대 MAP (postiori 확률) 추정값은 다음과 같습니다.

θ^지도=인수최대θ로그(와이|θ)+로그(θ)

(θ)θ

(θ)θ

라플라스 vs 가우시안

이제 가중치 앞에 Laplace를 배치하는 것이 희소성을 유발할 가능성이 높은 이유에 대한 또 다른 견해가 있습니다 . Laplace 분포가 0에 더 집중되어 있기 때문에 가중치가 0 일 가능성이 높습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.