L2 표준 손실에 고유 한 솔루션이 있고 L1 표준 손실에 여러 솔루션이있는 이유는 무엇입니까?


16

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

이 글의 상단을 보면 L2 규범에는 고유 한 솔루션이 있고 L1 규범에는 아마도 많은 솔루션이 있다고 언급합니다. 나는 정규화 측면에서 이것을 이해하지만 손실 함수에서 L1 규범 또는 L2 규범을 사용하는 관점에서는 이해하지 못합니다.

스칼라 x (x ^ 2 및 | x |)의 함수 그래프를 보면 두 가지 고유 한 솔루션이 있다는 것을 쉽게 알 수 있습니다.


2
"fnx"? ... 이것을 명확하게하려면 편집하십시오. "기능"을 의미합니까?
Glen_b-복지국 모니카

답변:


25

가장 간단한 표현을위한 1 차원 문제를 생각해 봅시다. 더 높은 차원의 경우 비슷한 속성을 갖습니다.

둘 다및 각각은 고유 최소 가지고(x 오프셋이 다른 절대 값 함수의 합)은 종종 그렇지 않습니다. 및 고려하십시오 .|xμ|(xμ)2i|xiμ|x1=1x2=3

sum_i의 플롯 | x_i-mu |

(x 축의 레이블에도 불구하고 NB는 실제로 의 기능입니다 . 라벨을 수정해야하지만 그대로 두겠습니다.)μ

높은 차원에서는 -norm을 사용하여 최소 영역을 일정하게 유지할 수 있습니다 . 피팅 라인의 경우 여기에 예가 있습니다 .L1

2 차의 합은 여전히 ​​2 차이므로 는 고유 한 솔루션을 갖습니다. 더 높은 차원 (다중 회귀)에서는 2 차 문제가 자동으로 고유 한 최소값을 갖지 않을 수 있습니다. 매개 변수 공간의 손실에 부정적인 영향을 미치면 다차원 선형이 생길 수 있습니다. 그것은 여기에 제시된 것과는 다소 다른 문제입니다.i(xiμ)2=n(x¯μ)2+k(x)


경고. -norm 회귀가 강력 하다는 주장에 링크 된 페이지 입니다. 나는 완전히 동의하지 않는다고 말해야 할 것입니다. 영향력이없는 지점 (x 공간에서 불일치) 이 아닌 한 y 방향의 큰 편차에 대해 강력 합니다. 하나의 영향력있는 특이 치조차도 임의로 심하게 망칠 수 있습니다. 여기에 예가 있습니다 .L1

(일부 특정 상황을 제외하고) 일반적으로 영향력이 큰 관측치가 없다는 보장은 없으므로 L1 회귀 분석을 강력하지는 않습니다.


음모에 대한 R 코드 :

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)

대단하다. 그래프 작성에 어떤 소프트웨어를 사용하셨습니까?
user3180

2
R. 이것은 기본 그래픽에서 수행됩니다. 답변 끝에 코드를 추가했습니다.
Glen_b-복지국 모니카

1
와, 님에게 기능을 제공 할 수 있다는 것을 결코 깨닫지 못했습니다 plot. 마음이 불었다.
JAD

5

L2 손실을 최소화하는 것은 모호하지 않은 산술 평균을 계산하는 것에 해당하고, L1 손실을 최소화하는 것은 중앙값을 계산하는 것에 해당하며, 짝수의 요소가 중앙값 계산에 포함되는 경우 모호합니다 ( 중앙 경향 : 변동 문제에 대한 솔루션 참조) ).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.