정규화 용어가 비용 함수에 (더하기 등이 아닌) 왜 추가됩니까?

51

정규화를 사용할 때마다 다음과 같은 비용 함수와 같은 비용 함수에 추가됩니다.

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$ 최소화하기 때문에 직관적 인 의미가 있습니다. 비용 함수는 오류 (왼쪽 항)를 최소화하고 동시에 계수의 크기 (오른쪽 항)를 최소화하는 것 (또는 최소한 두 최소화의 균형을 잡는 것)을 의미합니다.

내 질문은 왜이 정규화 용어 $\alpha\|\theta\|_2^2$ 가 원래 비용 함수에 추가되고 곱하지 않았거나 정규화 아이디어 뒤에 동기의 정신을 유지하는 다른 이유는 무엇입니까? 단순히 용어를 추가하면 충분히 간단하고 분석적으로 해결할 수 있거나 더 깊은 이유가 있기 때문입니까?

regularization

— 그렌 메 스터
소스

1

또 다른 논쟁은 대표자 정리를 통한 것이다

— jkabrg

2

lagrangian multiplier

— Haitao Du

9

관측치보다 더 독립적 인 변수가있는 경우

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$ 를 여러 가지 방법으로 0으로 만들 수 있으므로 어떤 것도 곱해도 유용한 모델을 구별하는 데 도움

— Henry

47

Bayesian 프레임 워크에는 꽤 좋은 직감이 있습니다. 정규화 비용 함수 것을 고려 $J$ 파라미터 구성의 확률과 동일한 역할을 갖고 $\theta$ 관찰에 주어진 $X, y$ . 베이 즈 정리를 적용하면 다음과 같은 이점이 있습니다.

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

표현의 로그를 가져 가면 다음과 같이됩니다.

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

이제 가 음의 ¹ log-posterior, 라고 가정 해 봅시다 . 마지막 용어는 의존하지 않으므로 최소값을 변경하지 않고 생략 할 수 있습니다. 1) 우도 용어 : 당신은 두 용어 남아 있습니다 에 따라 와 , 2) 이전의 용어 에 따라 만. 이 두 항은 공식의 데이터 항과 정규화 항에 정확히 일치합니다. $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

더 나아가서 게시 한 손실 함수가 다음 모델과 정확히 일치 함을 보여줄 수 있습니다.

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

여기서 매개 변수 는 제로 평균 가우시안 분포에서 나오고 관측 값 는 제로 평균 가우스 잡음을 갖습니다. 자세한 내용은 이 답변을 참조하십시오 . $\theta$ $y$

¹ 확률 을 최대화 하고 비용을 최소화 하려는 경우 음수 .

— 얀 쿠 카카
소스

5

비용 함수와 로그-포 어스 사이의 대응을 손으로 흔들기 때문에이 답변에 약간 불만족합니다. 비용이 로그-포지션에 해당하지 않고 사후에 해당하는 경우 정규화는 비정규 화 된 비용 (OP가 요청한 것처럼)을 곱해야한다고 결론을 내 렸습니다. -이 답변을 올바로 정당화하려면 왜 우리가 비용과 같은 로그 대수인지를 정당화해야합니다. (당신은 "더 멀리 나아가"라고 할 수 있지만 그 시점에서 약간 손

— RM

1

@RM, 유효한 포인트. 기계 학습에 사용되는 표준 손실 함수가 사후 자체가 아니라 로그-포 어스에 해당하기 때문입니다. 왜? 그들은 경험적 위험 최소화를 사용하기 때문에; 이며 표준 손실 함수는 일반적으로 여기서 는 로그-포스 확률로 현명한 해석을 갖는 손실 함수입니다. (나는 당신이 이것을 알고 있다고 생각하지만 다른 방문객들을 위해 철자하고 있습니다.)

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

— DW

@RM 비용 가 있다면 항상 관점에서 문제를 재정의 할 수 있습니다. 다시 말해, 비용 함수가 무엇이든, 이는 MCMC 방법을 사용할 때 무시할 수있는 정규화 상수로 나눈 기준으로 분포를 정의 합니다. 당신은 항상 지수의 관점에서 다시 설명 할 수있는 사실 등을 예를 들어 시뮬레이션 어닐링, MCMC 샘플러, 매우 중요하다

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

— 엘리

예를 들어 @RM 은 Jun Liu (그리고 Liu의 MCMC 책에 비슷한 주석 이 있음)의이 논문 을 고려해보십시오 . 3 페이지 하단에 "Let 는 조사중인 목표 확률 분포 여야합니다 (아마도 모든 PDF를이 형식으로 작성할 수 있음) "(강조 추가). 따라서 우도 모델에 의해 정의 된 사후 부분이이 손실 함수가되는 베이지안 관점에서,이 답에 대한이 베이지안 분해는 완전히 일반적 일 것입니다.

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

— ely

답변 해주셔서 감사합니다! 나는 당신의 게시물의 시작 부분에서 "그것"을 이해하려고 노력하고 있습니다. 정확히 베이지안 틀 안에서 좋은 직관이 있다고 주장하는 것은 무엇입니까? 위약금을 추가하는 것이 좋은 견적을 제공하는 근본적인 이유는 무엇입니까? 또는 사람들이 이러한 추정 추정기를 사용하는 역사적 (그리고 비 통계적) 이유는 무엇입니까? (내 말을 암시하려고했을 때 귀하의 답변이 통계적 이유가 아니라 역사적 이유를 다루고 있다고 생각합니다.)

— user795305

34

Jan 과 Cagdas 는 정규화기를 이전과 같이 해석하여 좋은 베이지안 이유를 제시합니다. 바이에른 사람이 아닌 사람들은 다음과 같습니다.

정규화되지 않은 목표가 볼록하고 볼록 정규자를 추가하면 전체 목표는 여전히 볼록합니다. 곱하기 또는 대부분의 다른 결합 방법은 사실이 아닙니다. 볼록 최적화는 볼록하지 않은 최적화에 비해 정말 좋습니다. 볼록한 배합이 효과가 있다면 그렇게하는 것이 좋습니다.
능선 회귀의 경우 wpof 언급 이 있기 때문에 때로는 매우 간단한 닫힌 형태로 이어집니다 .
만약 당신이 "정말로"어려운 제약 조건 인 의 문제로 해결 하는 문제를 생각 한다면, Lagrange 듀얼 은 문제입니다 당신이하지 않는 있지만 이 라그랑주 이중성을 사용하여, 많은 그것에 대해 이해된다.
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
으로 언급 ogogmad 의 representer 정리는 첨가제의 벌금의 경우에 적용 최적화 할 경우 전체에 걸쳐 재생 커널 힐베르트 공간 의 기능 , 우리는 알고 전체 공간을 통해 최적화 솔루션 는 많은 손실에 대해 단순한 유한 차원 부분 공간에있다 ; 이것이 곱셈 정규화기를 유지할지 모르겠습니다 (물론). 이것이 커널 SVM의 토대입니다. $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
어쨌든 딥 러닝이나 볼록하지 않은 것을 수행하는 경우 추가 손실은 간단한 추가 그라디언트를 제공합니다. 당신이 준 간단한 경우 매우 간단한 무게 감퇴가 됩니다. 그러나 좀 더 복잡한 정규화 기조차도 WGAN-GP 의 손실 손실의 합과 복잡한 정규화 기 (별도 고려)를 고려할 필요가있는 경우에만 역 전파가 그라디언트를 계산하는 것이 더 쉽습니다. 제품 규칙을 수행하십시오. $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
일반적인 ADMM 최적화 알고리즘 및 기타 "분해"기반 알고리즘으로 인해 추가 손실이 발생 합니다.

이러한 규칙 중 어느 것도 빠르지 않은 규칙이 아니며 실제로 곱셈 (또는 다른) 정규화 기가 더 잘 작동 할 수도 있습니다 ( ogogmad가 지적한 대로 ). (사실, 전날 WGAN-GP 첨가제보다 곱셈 정규화기로 해석 할 수있는 방법 에 대한 논문을 제출 했습니다 !) 그러나 이것이 왜 첨가제 정규화 기가 "기본"인지 설명하는 데 도움이 되길 바랍니다.

— 더갈
소스

2

+1. [아마도 NIPS] 제출에 행운을 빕니다!

— 아메바는

13

목적 함수에서 두 항 을 모두 최소화하려고 합니다. 따라서 용어를 분리해야합니다. 항을 곱하면 한 항은 크고 다른 항은 매우 낮을 수 있습니다. 따라서 목표 함수 값은 여전히 낮지 만 바람직하지 않은 결과가 발생합니다.

예측력없이 가장 가까운 제로에 가까운 모형을 가질 수 있습니다.

최소화 할 함수 인 목적 함수는 비용 함수와 정규화 항의 합으로 구성 될 수 있습니다.

둘 다 서로 독립적 인 경우 목표의 첫 번째 그림에 설명 된 값을 얻습니다. 합계의 경우 (0, 0)에 최소값이 하나만 있습니다. 제품의 경우 모호합니다. (x = 0 또는 y = 0)에서 전체 하이퍼 표면이 0과 같습니다. 따라서 최적화 알고리즘은 초기화에 따라 어디에서나 끝날 수 있습니다. 어떤 솔루션이 더 나은지 결정할 수 없습니다.

— 쇠렌
소스

10

다른 이진 연산 ( )을 시도 하고 비교 방법을 볼 수 있습니다. $\max,\min,\times$

및 의 문제 는 오류가 이면 정규 페널티가 이된다는 것 입니다. 이를 통해 모델이 과적 합 될 수 있습니다. $\min$ $\times$ $0$ $0$

의 문제점 은 두 벌금의 "더 세게"(훈련 오류 또는 정규화)를 최소화하지만 다른 것은 아니라는 것입니다. $\max$

대조적으로 는 간단하고 작동합니다. $+$

왜 다른 이진 연산이 아닌지 물어볼 수 있습니다. 그것들을 배제 할 수있는 논쟁은 없습니다. 왜 실제로 그렇지 않습니까?

— jkabrg
소스

8

당신은 유효한 질문이 있다고 생각합니다. 적절한 답변을 제공하려면 문제의 확률 적 특성을 이해해야합니다.

일반적으로 우리가 해결하려는 문제는 다음과 같습니다. 주어진 데이터 이 데이터를 설명하는 가설 분포는 무엇입니까? 우리가 가설을 말할 때 우리는 PDF를 의미합니다 (적어도이 맥락에서). 그리고 가설 분포는 PDF의 PDF 즉, 입니다. $D$ $p(H | D)$

$p(H | D)$ 소정의 가정을 통해 분포 . 우리가 이것을 찾을 수 있다면, 우리는 이러한 가설 중 하나를 선택할 수 있습니다. 다소 쉬운 접근 방식은 베이 즈 정리를 사용하여 다른 방향에서 문제를 공격하는 것입니다. $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ 는 가설 중 하나이며 가능성이라고도합니다. 는 데이터를 관찰하기 전에 가설의 우주에서 가설을 분포시키는 것입니다. 우리는 데이터를 관찰 한 후 우리의 신념을 업데이트합니다. $p(H)$
$p(D)$ 는 우리의 신념을 업데이트하기 전의 가설의 평균입니다.

이제 베이 즈 방정식의 양변에 를 취하면 다음과 같이됩니다. $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

일반적으로 는 계산하기 어렵습니다. 좋은 점은 결과에 영향을 미치지 않습니다. 단순히 정규화 상수입니다. $p(D)$

예를 들어, 가설 가 가진 가우스 무리 인 경우 를 모르지만 를 알고 있다고 가정 하거나 (또는 적어도 상수라고 가정), 가설 자체는 가우스로 분포됩니다. 그런 다음 위의 모든 것을 연결하면 다음과 같습니다. $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

이제이 표현을 최소화하면 확률이 가장 높은 가설을 찾습니다. 상수는 최소화에 영향을 미치지 않습니다. 이것은 귀하의 질문에 표현 된 것입니다.

우리가 가우시안을 사용한 사실은 정규화 용어가 추가된다는 사실을 바꾸지 않습니다. 추가 (로그 용어 또는 확률로 곱셈) 여야하며 다른 선택은 없습니다. 우리가 다른 배포판을 사용하면 변화 할 것은 추가의 구성 요소입니다. 제공 한 비용 / 손실 기능은 특정 가우시안 시나리오에 최적입니다.

— 카 다스 오즈 겐크
소스

Cagdas 님, 설명해 주셔서 감사합니다. RHS에 대한 마지막 방정식의 변환을 이해하지 못했습니다. 이 부분을 더 명확하게 이해할 수있는 자료를 알려 주시겠습니까?

— Itachi

7

릿지는 매우 편리한 공식입니다. 확률 론적 답변과는 달리,이 답변은 추정치에 대한 해석을 제공하지 않고 왜 능선이 오래되고 명백한 공식인지 설명합니다.

선형 회귀 분석에서 정규 방정식은 $\hat{\theta} = (X^TX)^{-1} X^T y$

그러나, 행렬 는 때로는 뒤집을 수 없습니다. :를 조정하는 한 가지 방법은 대각선으로 작은 원소를 첨가하여 인 . $X^TX$ $X^TX + \alpha I$

이것은 해결책을 제공합니다 : ; 그러면 는 원래 문제를 해결하지 않고 능선 문제를 해결합니다. $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

— wpof
소스

3

당신이 말하는 답변을 지정하십시오. "위"가 본질적으로 모호하기 때문에 투표가 누적됨에 따라 명령이 진행됩니다.

— gung-모니 티 복원

1

정규화 항을 곱할 수없는 이유에 대해 더 직관적 인 이유가 있다고 생각합니다.

페널티 함수를 정규 페널티 함수에 제안 된 정규화 항을 곱한 값으로 가져갑니다.

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

여기에서 페널티 함수의 전역 최소값을 만듭니다 . 이 경우 모델이 예측과 데이터간에 높은 오류를 생성 할 수 있지만 모델 매개 변수 가중치가 모두 0 인 경우 페널티 함수는 0 입니다. $α‖θ‖^2_2=0$ $J(θ=0)=0$

모델이 완벽하지 않으면 은 절대로 0이 될 수 없습니다 (세트 θ가 존재할 확률) 모델을 '완벽한'것으로 만들기 위해서는 실제 데이터에 대해 무시할 수 있습니다.) 모델은 항상 솔루션 θ = 0으로 향하는 경향이 있어야합니다. $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

이것은 어딘가에 최소한의 지역에 갇히지 않으면 돌아올 것입니다.

— 제임스 풀턴
소스