매우 간단한 모델 인 고려해 봅시다 . 에 L1 페널티가 있고 에 최소 제곱 손실 함수가 있습니다. 표현식을 확장하여 다음과 같이 최소화 할 수 있습니다.y=βx+eβ^e^
minyTy−2yTxβ^+β^xTxβ^+2λ|β^|
최소 제곱 솔루션이 일부 이라고 가정하고 이라고 가정 하고 L1 페널티를 추가하면 어떻게되는지 봅시다. 로 , 이므로 페널티 항은 . 목적 함수 wrt 의 파생어 는 다음과 같습니다.β^>0yTx>0β^>0|β^|=β^2λββ^
−2yTx+2xTxβ^+2λ
분명히 솔루션이 있습니다 . β^=(yTx−λ)/(xTx)
분명히 증가시킴으로써 우리 운전할 수 (0으로 ). 그러나 일단 이면 를 늘리면 음수로 이지 않습니다. 느슨하게 쓰면 가 음수가되어 목적 함수의 파생어가 다음과 같이 변경되기 때문입니다.λβ^λ=yTxβ^=0λβ^
−2yTx+2xTxβ^−2λ
여기서 의 부호가 것은 페널티 용어의 절대적인 가치 특성 때문입니다. 경우 마이너스가 패널티 기간은 동일하게 및 유도체 WRT 복용 의 결과 . 이는 솔루션으로 연결 되며 과 명백하게 일치하지 않습니다 (최소 제곱 솔루션 ) 이는 및λβ−2λββ−2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). 을 에서 이동할 때 L1 페널티가 증가하고 제곱 오차 항이 증가합니다 (최소 제곱 솔루션에서 멀어짐에 따라) . 따라서 우리는 그렇지 않습니다. 에 스틱 .β^0<0β^=0
최소 제곱 솔루션에 대해 적절한 부호 변경을 통해 동일한 논리가 적용됨을 직관적으로 분명히해야합니다 . β^<0
그러나 최소 제곱 페널티 미분은 다음과 같습니다.λβ^2
−2yTx+2xTxβ^+2λβ^
분명히 솔루션이 있습니다 . 분명히 증가는 이것을 0으로 만들지 것입니다. 따라서 L2 페널티는 " 보다 작은 경우 모수 추정값을 0으로 설정"과 같은 약간의 광고가 없으면 변수 선택 도구로 사용할 수 없습니다 . β^=yTx/(xTx+λ)λϵ
다변량 모델로 이동할 때 상황이 바뀔 수 있습니다. 예를 들어, 하나의 모수 추정값을 이동하면 다른 모수 추정값이 부호를 변경시킬 수 있지만 일반적인 원리는 동일합니다. 매우 지능적으로 작성하면 실제로는 에 대한 표현식의 "분모"에 추가 되지만 L1 페널티 함수는 실제로 "분자"에 추가되기 때문에 가능합니다. β^