L2 정규화는 Gaussian Prior와 같습니다.


56

나는 이것을 읽고 직관적으로 이것을 볼 수 있지만 어떻게 L2 정규화에서 이것이 가우시안 프리어스라고 말하는가? L1이 이전의 라플라시안과 동일하다는 것도 마찬가지입니다.

더 이상의 참조는 좋을 것입니다.

답변:


54

관찰 된 일부 입출력 쌍 에서 일부 매개 변수 를 추론한다고 가정 해 봅시다 . 출력이 를 통한 입력과 선형으로 관련되어 있고 일부 노이즈 의해 데이터가 손상 되었다고 가정합시다 .( x 1 , y 1 ) , ( x N , y N ) β ϵβ(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

여기서 은 평균이 이고 분산이 가우스 잡음입니다 . 이것은 가우시안 가능성을 발생시킵니다.0 σ 2ϵ0σ2

n=1NN(yn|βxn,σ2).

가우스 사전 을 부과하여 매개 변수 를 정규화합시다 여기서 는 엄격하게 양의 스칼라입니다. 따라서 가능성과 사전을 결합하면 다음과 같은 이점이 있습니다.N ( β | 0 , λ - 1 ) , λβN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

위 식의 로그를 보자. 상수를 삭제하면 다음과 같습니다.

n=1N1σ2(ynβxn)2λβ2+const.

우리가 관련하여 위의 식을 최대화하는 경우 , 우리는 정도 최대 후천적 추정 호출되는 짧게, 또는 MAP 추정. 이 표현에서 가우시안 이전의 이유가 L2 정규화 용어로 해석 될 수있는 이유가 명백해집니다.βββ


마찬가지로 L1 규범과 라플라스 이전의 관계는 동일한 방식으로 이해 될 수 있습니다. 가우시안을 먼저 가져 가라. Laplace는 우선 그것을 가능성과 결합하여 로그를 취한다.

두 가지 문제에 대해 자세히 설명하는 좋은 참고 자료 (아마도 약간 진보 된 내용)는 "온라인 학습을위한 적응 형 Sparseness for Supervised Learning"이라는 논문입니다. 또는 "Jeffreys Prior를 사용한 적응 형 Sparseness"를보십시오 . 또 다른 좋은 참고 자료는 "Laplace 이전의 베이지안 분류" 입니다.


1
A의 D dimension선형 회귀 경우, 수 beta등을 sigma명시 솔루션이 있습니까? PRML을 읽고 있는데 30 페이지의 방정식 (1.67)을 찾아서 해결 방법을 모릅니다. 최우에서는 해결 beta다음과 sigma제로 기울기를 설정. 정규화 된 최소 제곱에서는 reqularization 매개 변수 lambda가 알려져 있으므로 beta직접 해결 합니다. 우리가 직접 MAP를 해결하지만, 해결의 순서는 무엇 beta, sigma? 그들에게 명확한 해결책이 있거나 반복적 인 프로세스를 사용해야합니까?
stackunderflow

마지막 방정식 인 에서 에 "square"가 없습니까? λ β 2λβλβ2
brian.keng

@AdamO 계수가 취할 수있는 값의 수를 제한합니다. 선행이 예를 들어 1-10 사이이면, 계수가 다른 값, 즉 [-inf to 1]과 [10, + inf]를 취할 확률은 0입니다.
imsrgadich

1
이 경우 가 알려져 있습니다. 를 알 수 없을 때 작동합니까 ? 베이지안 선형 회귀 분석의 경우, 역 감마 사전을 사용하여 분산 전에 공 액체를 형성 할 수 있습니다. 그러나 나는 대수학이 같은 표현에 해당하는지 확신하지 못한다. σ 2σ2σ2
AdamO

11

다변량 정규 이전 및 다변량 정규 우도를 갖는 선형 모형의 경우, 사후 평균 (및 최대 사후 모형)이 Tikhonov 정규화 ( 적절한 정규화 매개 변수가있는 최소 자승법. L2

베이지안 후부는 확률 분포라는 점에서 더 근본적인 차이가 있으며, Tikhonov는 최소 제곱 법을 정규화 한 점이 특정 점입니다.

이것은 역 문제에 대한 베이지안 방법에 대한 많은 교과서에서 논의됩니다 (예 : 참조).

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

마찬가지로, 라플라시안 이전과 다변량 정규 가능성이있는 경우 정규화 된 최소 제곱 문제 를 해결하여 얻을 수있는 시점에서 최대 사후 분포가 발생합니다 . L1


9

중앙값이 L1 규범을 최소화한다는 첫 번째 통지 ( L1 및 L2에 대한 자세한 내용은 여기 또는 여기 참조 )

median(x)=argminsi|xis|1

평균은 L2를 최소화하는 반면

mean(x)=argminsi|xis|2

이제 정규 분포 '리콜 파라미터를 이용하여 추정 될 수 평균 샘플 그동안, MLE 추정기 라플라스 분포에 대한 파라미터 중앙값이다. 따라서 정규 분포를 사용하는 것은 L2 규범 최적화 및 Laplace 분포를 사용하는 것과 L1 최적화를 사용하는 것과 같습니다. 실제로 중앙값이 평균보다 특이 치에 덜 민감하고, 이전과 같이 굵은 꼬리 라플라스 분포를 사용하면 정규 분포를 사용하는 것보다 모형이 특이 치에 덜 취약하게된다고 생각할 수 있습니다.μμμ


Hurley, WJ (2009) 이중 지수 분포에 대한 MLE을 계산하기위한 귀납적 접근법 . 현대 응용 통계 방법의 일지 : 8 (2), 25 조.


아마도 이것은 여기에 주어진 수학적으로 가장 엄격한 대답은 아니지만 L1 / L2 정규화 초보자가 이해하기에 가장 쉽고 직관적입니다.
SQLServerSteve 1

8

변수에 대한 회귀 문제 (절편없이)는 다음과 같이 OLS를 수행합니다.k

minβ(yXβ)(yXβ)

페널티가있는 정규 회귀 분석에서Lp

minβ(yXβ)(yXβ)+λi=1k|βi|p

우리는 동등하게 할 수 있습니다 (기호 변경에 주목하십시오)

maxβ(yXβ)(yXβ)λi=1k|βi|p

이것은 베이지안 원리와 직접적으로 관련이 있습니다.

posteriorlikelihood×prior

또는 동등 (정기 조건에서)

log(posterior)log(likelihood)+log(penalty)

이제 어떤 지수 군 분포가 어떤 형벌 유형에 해당하는지 알기가 어렵지 않습니다.


3

동등성을보다 정확하게 표현하려면 :

L2 정규화로 제곱 오차 손실 함수를 최소화하기 위해 모델 가중치를 최적화하는 것은 Bayes 규칙을 사용하여 평가 된 사후 분포 하에서 가장 독립적 인 가우시안 가중치를 갖는 가중치를 찾는 것과 같습니다.

증명:

위에서 설명한 손실 함수는

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

다변량 가우스 분포는

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

베이 즈 규칙을 사용하면

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

공분산은 항등 행렬의 배수이기 때문에 다차원 Guassian을 곱으로 나눌 수있는 곳.

음의 로그 확률을 취하십시오

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

물론 손실 함수에 근본적으로 영향을 미치지 않으면 서 상수를 떨어 뜨리고 임의의 양을 곱할 수 있습니다. (정수는 아무 것도하지 않고 곱셈은 학습 속도를 효과적으로 확장합니다. 최소 위치에 영향을 미치지 않습니다) 따라서 사후 분포의 음의 로그 확률이 ​​L2 정규화 된 제곱 오류 손실 함수와 동등한 손실 함수임을 알 수 있습니다.

이 동등성은 일반적이며 위에서 암시 된 것처럼 선형 회귀뿐만 아니라 가중치의 매개 변수화 된 함수에도 적용됩니다.


1

특정 벌칙 최대 가능성 추정치와 베이지안 절차의 동등성을 논의 할 때 강조해야 할 베이지안 모델링의 두 가지 특성이 있습니다.

  1. 베이지안 프레임 워크에서, 선행은 문제의 특정에 기초하여 선택되며 계산 편의성에 의해 동기를 부여받지 않습니다. 따라서 Bayesians는 희소 한 예측 변수 문제에 대해 지금 인기있는 말굽을 포함하여 다양한 이전을 사용하며 L1 또는 L2 처벌에 해당하는 이전에 많이 의존 할 필요는 없습니다.
  2. 완전한 베이지안 접근 방식을 사용하면 모든 추론 절차에 액세스 할 수 있습니다. 예를 들어, 큰 회귀 계수에 대한 증거를 수량화하고 회귀 계수 및 전체 예측 값에 대해 신뢰할 수있는 간격을 얻을 수 있습니다. 빈번한 틀에서, 일단 처벌을 선택하면 모든 추론 기계를 잃게됩니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.