정규화를 사용할 때마다 다음과 같은 비용 함수와 같은 비용 함수에 추가됩니다.
내 질문은 왜이 정규화 용어 가 원래 비용 함수에 추가되고 곱하지 않았거나 정규화 아이디어 뒤에 동기의 정신을 유지하는 다른 이유는 무엇입니까? 단순히 용어를 추가하면 충분히 간단하고 분석적으로 해결할 수 있거나 더 깊은 이유가 있기 때문입니까?
정규화를 사용할 때마다 다음과 같은 비용 함수와 같은 비용 함수에 추가됩니다.
내 질문은 왜이 정규화 용어 가 원래 비용 함수에 추가되고 곱하지 않았거나 정규화 아이디어 뒤에 동기의 정신을 유지하는 다른 이유는 무엇입니까? 단순히 용어를 추가하면 충분히 간단하고 분석적으로 해결할 수 있거나 더 깊은 이유가 있기 때문입니까?
답변:
Bayesian 프레임 워크에는 꽤 좋은 직감이 있습니다. 정규화 비용 함수 것을 고려 파라미터 구성의 확률과 동일한 역할을 갖고 관찰에 주어진 . 베이 즈 정리를 적용하면 다음과 같은 이점이 있습니다.
표현의 로그를 가져 가면 다음과 같이됩니다.
이제 가 음의 1 log-posterior, 라고 가정 해 봅시다 . 마지막 용어는 의존하지 않으므로 최소값을 변경하지 않고 생략 할 수 있습니다. 1) 우도 용어 : 당신은 두 용어 남아 있습니다 에 따라 와 , 2) 이전의 용어 에 따라 만. 이 두 항은 공식의 데이터 항과 정규화 항에 정확히 일치합니다.
더 나아가서 게시 한 손실 함수가 다음 모델과 정확히 일치 함을 보여줄 수 있습니다.
여기서 매개 변수 는 제로 평균 가우시안 분포에서 나오고 관측 값 는 제로 평균 가우스 잡음을 갖습니다. 자세한 내용은 이 답변을 참조하십시오 .
1 확률 을 최대화 하고 비용을 최소화 하려는 경우 음수 .
Jan 과 Cagdas 는 정규화기를 이전과 같이 해석하여 좋은 베이지안 이유를 제시합니다. 바이에른 사람이 아닌 사람들은 다음과 같습니다.
정규화되지 않은 목표가 볼록하고 볼록 정규자를 추가하면 전체 목표는 여전히 볼록합니다. 곱하기 또는 대부분의 다른 결합 방법은 사실이 아닙니다. 볼록 최적화는 볼록하지 않은 최적화에 비해 정말 좋습니다. 볼록한 배합이 효과가 있다면 그렇게하는 것이 좋습니다.
만약 당신이 "정말로"어려운 제약 조건 인 의 문제로 해결 하는 문제를 생각 한다면, Lagrange 듀얼 은 문제입니다 당신이하지 않는 있지만 이 라그랑주 이중성을 사용하여, 많은 그것에 대해 이해된다.
으로 언급 ogogmad 의 representer 정리는 첨가제의 벌금의 경우에 적용 최적화 할 경우 전체에 걸쳐 재생 커널 힐베르트 공간 의 기능 , 우리는 알고 전체 공간을 통해 최적화 솔루션 는 많은 손실에 대해 단순한 유한 차원 부분 공간에있다 ; 이것이 곱셈 정규화기를 유지할지 모르겠습니다 (물론). 이것이 커널 SVM의 토대입니다.
어쨌든 딥 러닝이나 볼록하지 않은 것을 수행하는 경우 추가 손실은 간단한 추가 그라디언트를 제공합니다. 당신이 준 간단한 경우 매우 간단한 무게 감퇴가 됩니다. 그러나 좀 더 복잡한 정규화 기조차도 WGAN-GP 의 손실 손실의 합과 복잡한 정규화 기 (별도 고려)를 고려할 필요가있는 경우에만 역 전파가 그라디언트를 계산하는 것이 더 쉽습니다. 제품 규칙을 수행하십시오.
일반적인 ADMM 최적화 알고리즘 및 기타 "분해"기반 알고리즘으로 인해 추가 손실이 발생 합니다.
이러한 규칙 중 어느 것도 빠르지 않은 규칙이 아니며 실제로 곱셈 (또는 다른) 정규화 기가 더 잘 작동 할 수도 있습니다 ( ogogmad가 지적한 대로 ). (사실, 전날 WGAN-GP 첨가제보다 곱셈 정규화기로 해석 할 수있는 방법 에 대한 논문을 제출 했습니다 !) 그러나 이것이 왜 첨가제 정규화 기가 "기본"인지 설명하는 데 도움이 되길 바랍니다.
목적 함수에서 두 항 을 모두 최소화하려고 합니다. 따라서 용어를 분리해야합니다. 항을 곱하면 한 항은 크고 다른 항은 매우 낮을 수 있습니다. 따라서 목표 함수 값은 여전히 낮지 만 바람직하지 않은 결과가 발생합니다.
예측력없이 가장 가까운 제로에 가까운 모형을 가질 수 있습니다.
최소화 할 함수 인 목적 함수는 비용 함수와 정규화 항의 합으로 구성 될 수 있습니다.
둘 다 서로 독립적 인 경우 목표의 첫 번째 그림에 설명 된 값을 얻습니다. 합계의 경우 (0, 0)에 최소값이 하나만 있습니다. 제품의 경우 모호합니다. (x = 0 또는 y = 0)에서 전체 하이퍼 표면이 0과 같습니다. 따라서 최적화 알고리즘은 초기화에 따라 어디에서나 끝날 수 있습니다. 어떤 솔루션이 더 나은지 결정할 수 없습니다.
당신은 유효한 질문이 있다고 생각합니다. 적절한 답변을 제공하려면 문제의 확률 적 특성을 이해해야합니다.
일반적으로 우리가 해결하려는 문제는 다음과 같습니다. 주어진 데이터 이 데이터를 설명하는 가설 분포는 무엇입니까? 우리가 가설을 말할 때 우리는 PDF를 의미합니다 (적어도이 맥락에서). 그리고 가설 분포는 PDF의 PDF 즉, 입니다.
소정의 가정을 통해 분포 . 우리가 이것을 찾을 수 있다면, 우리는 이러한 가설 중 하나를 선택할 수 있습니다. 다소 쉬운 접근 방식은 베이 즈 정리를 사용하여 다른 방향에서 문제를 공격하는 것입니다.
는 가설 중 하나이며 가능성이라고도합니다. 는 데이터를 관찰하기 전에 가설의 우주에서 가설을 분포시키는 것입니다. 우리는 데이터를 관찰 한 후 우리의 신념을 업데이트합니다.
는 우리의 신념을 업데이트하기 전의 가설의 평균입니다.
이제 베이 즈 방정식의 양변에 를 취하면 다음과 같이됩니다.
일반적으로 는 계산하기 어렵습니다. 좋은 점은 결과에 영향을 미치지 않습니다. 단순히 정규화 상수입니다.
예를 들어, 가설 가 가진 가우스 무리 인 경우 를 모르지만 를 알고 있다고 가정 하거나 (또는 적어도 상수라고 가정), 가설 자체는 가우스로 분포됩니다. 그런 다음 위의 모든 것을 연결하면 다음과 같습니다.
이제이 표현을 최소화하면 확률이 가장 높은 가설을 찾습니다. 상수는 최소화에 영향을 미치지 않습니다. 이것은 귀하의 질문에 표현 된 것입니다.
우리가 가우시안을 사용한 사실은 정규화 용어가 추가된다는 사실을 바꾸지 않습니다. 추가 (로그 용어 또는 확률로 곱셈) 여야하며 다른 선택은 없습니다. 우리가 다른 배포판을 사용하면 변화 할 것은 추가의 구성 요소입니다. 제공 한 비용 / 손실 기능은 특정 가우시안 시나리오에 최적입니다.
릿지는 매우 편리한 공식입니다. 확률 론적 답변과는 달리,이 답변은 추정치에 대한 해석을 제공하지 않고 왜 능선이 오래되고 명백한 공식인지 설명합니다.
선형 회귀 분석에서 정규 방정식은
그러나, 행렬 는 때로는 뒤집을 수 없습니다. :를 조정하는 한 가지 방법은 대각선으로 작은 원소를 첨가하여 인 .
이것은 해결책을 제공합니다 : ; 그러면 는 원래 문제를 해결하지 않고 능선 문제를 해결합니다.
정규화 항을 곱할 수없는 이유에 대해 더 직관적 인 이유가 있다고 생각합니다.
페널티 함수를 정규 페널티 함수에 제안 된 정규화 항을 곱한 값으로 가져갑니다.
여기에서 페널티 함수의 전역 최소값을 만듭니다 . 이 경우 모델이 예측과 데이터간에 높은 오류를 생성 할 수 있지만 모델 매개 변수 가중치가 모두 0 인 경우 페널티 함수는 0 입니다.
모델이 완벽하지 않으면 은 절대로 0이 될 수 없습니다 (세트 θ가 존재할 확률) 모델을 '완벽한'것으로 만들기 위해서는 실제 데이터에 대해 무시할 수 있습니다.) 모델은 항상 솔루션 θ = 0으로 향하는 경향이 있어야합니다.
이것은 어딘가에 최소한의 지역에 갇히지 않으면 돌아올 것입니다.