답변:
관찰 된 일부 입출력 쌍 에서 일부 매개 변수 를 추론한다고 가정 해 봅시다 . 출력이 를 통한 입력과 선형으로 관련되어 있고 일부 노이즈 의해 데이터가 손상 되었다고 가정합시다 .( x 1 , y 1 ) … , ( x N , y N ) β ϵ
여기서 은 평균이 이고 분산이 가우스 잡음입니다 . 이것은 가우시안 가능성을 발생시킵니다.0 σ 2
가우스 사전 을 부과하여 매개 변수 를 정규화합시다 여기서 는 엄격하게 양의 스칼라입니다. 따라서 가능성과 사전을 결합하면 다음과 같은 이점이 있습니다.N ( β | 0 , λ - 1 ) , λ
위 식의 로그를 보자. 상수를 삭제하면 다음과 같습니다.
우리가 관련하여 위의 식을 최대화하는 경우 , 우리는 정도 최대 후천적 추정 호출되는 짧게, 또는 MAP 추정. 이 표현에서 가우시안 이전의 이유가 L2 정규화 용어로 해석 될 수있는 이유가 명백해집니다.β
마찬가지로 L1 규범과 라플라스 이전의 관계는 동일한 방식으로 이해 될 수 있습니다. 가우시안을 먼저 가져 가라. Laplace는 우선 그것을 가능성과 결합하여 로그를 취한다.
두 가지 문제에 대해 자세히 설명하는 좋은 참고 자료 (아마도 약간 진보 된 내용)는 "온라인 학습을위한 적응 형 Sparseness for Supervised Learning"이라는 논문입니다. 또는 "Jeffreys Prior를 사용한 적응 형 Sparseness"를보십시오 . 또 다른 좋은 참고 자료는 "Laplace 이전의 베이지안 분류" 입니다.
다변량 정규 이전 및 다변량 정규 우도를 갖는 선형 모형의 경우, 사후 평균 (및 최대 사후 모형)이 Tikhonov 정규화 ( 적절한 정규화 매개 변수가있는 최소 자승법.
베이지안 후부는 확률 분포라는 점에서 더 근본적인 차이가 있으며, Tikhonov는 최소 제곱 법을 정규화 한 점이 특정 점입니다.
이것은 역 문제에 대한 베이지안 방법에 대한 많은 교과서에서 논의됩니다 (예 : 참조).
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
마찬가지로, 라플라시안 이전과 다변량 정규 가능성이있는 경우 정규화 된 최소 제곱 문제 를 해결하여 얻을 수있는 시점에서 최대 사후 분포가 발생합니다 .
중앙값이 L1 규범을 최소화한다는 첫 번째 통지 ( L1 및 L2에 대한 자세한 내용은 여기 또는 여기 참조 )
평균은 L2를 최소화하는 반면
이제 정규 분포 '리콜 파라미터를 이용하여 추정 될 수 평균 샘플 그동안, MLE 추정기 라플라스 분포에 대한 파라미터 중앙값이다. 따라서 정규 분포를 사용하는 것은 L2 규범 최적화 및 Laplace 분포를 사용하는 것과 L1 최적화를 사용하는 것과 같습니다. 실제로 중앙값이 평균보다 특이 치에 덜 민감하고, 이전과 같이 굵은 꼬리 라플라스 분포를 사용하면 정규 분포를 사용하는 것보다 모형이 특이 치에 덜 취약하게된다고 생각할 수 있습니다.μ
Hurley, WJ (2009) 이중 지수 분포에 대한 MLE을 계산하기위한 귀납적 접근법 . 현대 응용 통계 방법의 일지 : 8 (2), 25 조.
변수에 대한 회귀 문제 (절편없이)는 다음과 같이 OLS를 수행합니다.
페널티가있는 정규 회귀 분석에서
우리는 동등하게 할 수 있습니다 (기호 변경에 주목하십시오)
이것은 베이지안 원리와 직접적으로 관련이 있습니다.
또는 동등 (정기 조건에서)
이제 어떤 지수 군 분포가 어떤 형벌 유형에 해당하는지 알기가 어렵지 않습니다.
동등성을보다 정확하게 표현하려면 :
L2 정규화로 제곱 오차 손실 함수를 최소화하기 위해 모델 가중치를 최적화하는 것은 Bayes 규칙을 사용하여 평가 된 사후 분포 하에서 가장 독립적 인 가우시안 가중치를 갖는 가중치를 찾는 것과 같습니다.
증명:
위에서 설명한 손실 함수는
다변량 가우스 분포는
베이 즈 규칙을 사용하면
공분산은 항등 행렬의 배수이기 때문에 다차원 Guassian을 곱으로 나눌 수있는 곳.
음의 로그 확률을 취하십시오
물론 손실 함수에 근본적으로 영향을 미치지 않으면 서 상수를 떨어 뜨리고 임의의 양을 곱할 수 있습니다. (정수는 아무 것도하지 않고 곱셈은 학습 속도를 효과적으로 확장합니다. 최소 위치에 영향을 미치지 않습니다) 따라서 사후 분포의 음의 로그 확률이 L2 정규화 된 제곱 오류 손실 함수와 동등한 손실 함수임을 알 수 있습니다.
이 동등성은 일반적이며 위에서 암시 된 것처럼 선형 회귀뿐만 아니라 가중치의 매개 변수화 된 함수에도 적용됩니다.
특정 벌칙 최대 가능성 추정치와 베이지안 절차의 동등성을 논의 할 때 강조해야 할 베이지안 모델링의 두 가지 특성이 있습니다.
D dimension
선형 회귀 경우, 수beta
등을sigma
명시 솔루션이 있습니까? PRML을 읽고 있는데 30 페이지의 방정식 (1.67)을 찾아서 해결 방법을 모릅니다. 최우에서는 해결beta
다음과sigma
제로 기울기를 설정. 정규화 된 최소 제곱에서는 reqularization 매개 변수lambda
가 알려져 있으므로beta
직접 해결 합니다. 우리가 직접 MAP를 해결하지만, 해결의 순서는 무엇beta
,sigma
? 그들에게 명확한 해결책이 있거나 반복적 인 프로세스를 사용해야합니까?