L2보다 L1 정규화를 사용하는 이유는 무엇입니까?


10

손실 함수를 사용하여 선형 회귀 모델을 수행하는 이유는 무엇입니까? 1 대신에 2 정규화?

과적 합을 방지하는 것이 더 낫습니까? 결정적입니까 (그래서 항상 독특한 솔루션입니까)? 희소 모델을 생성하기 때문에 기능 선택이 더 낫습니까? 기능들 사이에 가중치가 분산됩니까?


2
L2는 변수 선택을하지 않기 때문에 L1이 더 좋습니다.
Michael M

답변:


5

기본적으로, 우리는 계수가 너무 적합하기에 완벽하게 맞지 않도록하기 위해 정규화 항을 추가합니다.

L1과 L2의 차이는 L1이며 가중치의 합이고 L2는 가중치의 제곱의 합입니다.

L1은 L2와 달리 구분할 수 없기 때문에 그라디언트 기반 방식에는 사용할 수 없습니다.

L1은 스파 스 형상 공간에서 형상 선택을 수행하는 데 도움이됩니다.

속성의 차이점은 다음과 같이 요약 할 수 있습니다.

l1 대 l2


1
"L1을 그라디언트 기반 접근 방식으로 사용할 수 없음"은 사실이 아닙니다. Keras는이를 지원합니다 . 예, 미분 값은 항상 일정하므로 기울기 강하가 최소값을 찾기가 더 어렵습니다. 그러나 정규화는 손실 함수 내에서 작은 용어이므로 그랜드 사물 체계에서는 그다지 중요하지 않습니다.
Ricardo Cruz

-1

L2는 L1에있어 매우 중요한 이점 중 하나이며, 이는 회전 및 스케일에 대한 불변입니다.

이것은 지리적 / 물리적 응용에서 특히 중요합니다.

기술자가 실수로 센서를 45도 각도로 설치했다고 가정하면 L1은 영향을 받고 L2 (유클리드 거리)는 동일하게 유지됩니다.


4
이것은 전혀 질문에 대한 답변이 아닙니다.
kbrose 2013 년

불일치에 대해 설명해 주시겠습니까?
aneesh joshi

@Chati, 문제는 정규화에 관한 것입니다. 손실 함수에서 1- 노름 및 2- 노름의 다른 용도와 혼동됩니다.
Ricardo Cruz
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.