빈번한 견해 👀
어떤 의미에서, 우리는 두 정규화를 "무게 축소" 로 생각할 수 있습니다 . L2는 가중치의 유클리드 표준을 최소화하고 L1은 맨해튼 표준을 최소화합니다. 이러한 사고 방식에 따라 L1과 L2의 등전위가 각각 구면과 다이아몬드 모양이므로 Lshop이 Bishop의 Pattern Recognition과 Machine Learning에 설명 된 것처럼 희소 솔루션으로 이어질 가능성이 높습니다 .
베이지안보기 👀
그러나 사전이 선형 모델과 어떤 관련이 있는지 이해하려면 일반 선형 회귀 분석 의 베이지안 해석 을 이해해야합니다 . 캐서린 베일리 (Katherine Bailey)의 블로그 포스트 는 이것에 대한 훌륭한 글입니다. 간단히 말해서 선형 모델에서 정상적으로 분포 된 iid 오류를 가정합니다.
y = θ⊤X + ϵ
엔와이나는, i = 1 , 2 , … , Nϵ케이~ N( 0 , σ)
와이p ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
밝혀진 바와 같이 ... 최대 우도 추정치는 오차에 대한 정규성 가정 하에서 예측 된 출력 값과 실제 출력 값 사이의 제곱 오차를 최소화하는 것과 동일합니다.
θ^MLE= 인수최대θ로그피( y| θ)= 인수분θ∑나는 = 1엔( y나는− θ⊤엑스나는)2
가중치를 우선으로하는 정규화
선형 회귀 가중치에 대해 불균일 한 부분을 먼저 배치하는 경우 최대 MAP (postiori 확률) 추정값은 다음과 같습니다.
θ^지도= 인수최대θ로그피( y| θ)+로그피( θ )
피( θ )θ
피( θ )θ
이제 가중치 앞에 Laplace를 배치하는 것이 희소성을 유발할 가능성이 높은 이유에 대한 또 다른 견해가 있습니다 . Laplace 분포가 0에 더 집중되어 있기 때문에 가중치가 0 일 가능성이 높습니다.