평균 제곱 오차는 신경망의 맥락에서 항상 볼록합니까?

9

MSE가 볼록하기 때문에 훌륭하다고 언급 한 여러 자료. 그러나 나는 특히 신경망의 맥락에서 방법을 얻지 못합니다.

우리가 다음을 가지고 있다고 가정 해 봅시다.

$X$ : 훈련 데이터 세트
$Y$ : 목표
$\Theta$ : 모델의 매개 변수 세트 $f_\Theta$ (비선형 성을 갖는 신경망 모델)

그때:

MSE (Θ) = (f_{Θ} (X) - Y)^{2}

$\operatorname{MSE}(\Theta) = (f_\Theta(X) - Y)^2$

이 손실 함수가 항상 볼록한 이유는 무엇입니까? 이것에 의존합니까? $f_\Theta(X)$ ?

— 사용자
소스

1

간단히 말해서 : MSE는 입력과 매개 변수 자체에서 볼록합니다. 그러나 임의의 신경망에서 활성화 기능의 형태로 비선형 성이 존재하기 때문에 항상 볼록한 것은 아닙니다. 내 대답의 출처는 여기에 있습니다 .

— 바쉬
소스

1

볼록

기능 $f(x)$ 함께 볼록한, 임의위한 경우 , 및 대 , $x ∈ Χ$ $x_1 ∈ Χ$ $x_2 ∈ Χ$ $0 ≤ λ ≤ 1$
$f (λ x_{1} + (1 - λ) x_{2}) \leq λ f (x_{1}) + (1 - λ) f (x_{2}) .$ $f(λ x_1 + (1 − λ) x_2) ≤ λf(x_1) + (1 − λ) f (x_2).$

이러한 볼록 는 하나의 글로벌 최소값을 갖는다 는 것이 입증 될 수있다 . 고유 한 전역 최소값은 오류 함수 최소화와 같이 전역 최소값에 대한 수렴을 시도하는 알고리즘에서 발생할 수있는 로컬 최소값에 의해 생성 된 트랩을 제거합니다. $f(x)$

오류 함수가 모든 연속적인 선형 컨텍스트 및 많은 비선형 컨텍스트에서 100 % 신뢰할 수 있지만 모든 가능한 비선형 컨텍스트에 대한 전역 최소값에 대한 수렴을 의미하지는 않습니다.

평균 제곱 오류

이상적인 시스템 거동을 설명 하는 함수 와 시스템 의 모델 (여기서 는 매개 변수 벡터, 행렬, 큐브 또는 하이퍼 큐브이고 )이며 합리적으로 또는 수렴을 통해 생성됩니다. (신경망 훈련에서와 같이), 평균 제곱 오차 (MSE) 기능은 다음과 같이 나타낼 수 있습니다. $s(x)$ $a(x, p)$ $p$ $1 ≤ n ≤ N$

e (β) := N^{- 1} \sum_{n} [a (x_{n}) - s (x_{n})]^{2}

$e(β) := N^{-1} \sum_{n} [a(x_n) − s(x_n)]^2$

당신이 읽고있는이 물질은 아마도 주장 아니라고 또는 에 대한 볼록 ,하지만 에 대한 볼록 과 그들이 무엇이든간에. 이 이후의 진술은 모든 연속적인 및 대해 입증 될 수 있습니다 . $a(x, p)$ $s(x)$ $x$ $e(β)$ $a(x, p)$ $s(x)$ $a(x, p)$ $s(x)$

수렴 알고리즘 혼동

질문이 합리적인 MSE 수렴 마진 내 에서 근사한 특정 및 를 달성하는 방법 이 혼란 스러울 수 있는지 여부는 "예"입니다. 그렇기 때문에 MSE가 유일한 오류 모델이 아닙니다. $a(x, p)$ $s(x)$ $a(x, p)$

요약

가장 좋은 방법은 다음 지식을 바탕으로 를 일련의 스톡 볼록 오류 모델에서 정의하거나 선택해야한다는 것입니다. $e(β)$

시스템 알려진 속성 $s(x)$
근사 모델 의 정의 $a(x, p)$
수렴 시퀀스에서 다음 상태를 생성하는 데 사용되는 텐서

스톡 볼록 오차 모델 세트는 단순성과 계산 적산 때문에 MSE 모델을 포함합니다.

— 포 크리스티안
소스

따라서 짧은 대답은 MSE wrt Theta가 항상 볼록하다는 것입니다. Feedforard (X, Theta)는 볼록하지 않습니까?

— user74211

글쎄, @ user74211, 그 의견은 실제로 질문에 대답하지 않습니다. 구체적으로 HOW는 해당 함수가 적용되지 않는 경우 항상 제곱 오차가 볼록 할 수 있음을 질문했습니다. 귀하의 의견은 해당 설명이없는 질문의 진술 중 일부입니다.

— FauChristian 2012 년