평균 제곱 오차는 신경망의 맥락에서 항상 볼록합니까?


9

MSE가 볼록하기 때문에 훌륭하다고 언급 한 여러 자료. 그러나 나는 특히 신경망의 맥락에서 방법을 얻지 못합니다.

우리가 다음을 가지고 있다고 가정 해 봅시다.

  • X: 훈련 데이터 세트
  • Y: 목표
  • Θ: 모델의 매개 변수 세트 fΘ (비선형 성을 갖는 신경망 모델)

그때:

MSE(Θ)=(fΘ(X)Y)2

이 손실 함수가 항상 볼록한 이유는 무엇입니까? 이것에 의존합니까?fΘ(X)?

답변:


1

간단히 말해서 : MSE는 입력과 매개 변수 자체에서 볼록합니다. 그러나 임의의 신경망에서 활성화 기능의 형태로 비선형 성이 존재하기 때문에 항상 볼록한 것은 아닙니다. 내 대답의 출처는 여기에 있습니다 .


1

볼록

기능 f(x)함께 볼록한, 임의위한 경우 , 및 대 , xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

이러한 볼록 는 하나의 글로벌 최소값을 갖는다 는 것이 입증 될 수있다 . 고유 한 전역 최소값은 오류 함수 최소화와 같이 전역 최소값에 대한 수렴을 시도하는 알고리즘에서 발생할 수있는 로컬 최소값에 의해 생성 된 트랩을 제거합니다.f(x)

오류 함수가 모든 연속적인 선형 컨텍스트 및 많은 비선형 컨텍스트에서 100 % 신뢰할 수 있지만 모든 가능한 비선형 컨텍스트에 대한 전역 최소값에 대한 수렴을 의미하지는 않습니다.

평균 제곱 오류

이상적인 시스템 거동을 설명 하는 함수 와 시스템 의 모델 (여기서 는 매개 변수 벡터, 행렬, 큐브 또는 하이퍼 큐브이고 )이며 합리적으로 또는 수렴을 통해 생성됩니다. (신경망 훈련에서와 같이), 평균 제곱 오차 (MSE) 기능은 다음과 같이 나타낼 수 있습니다.s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

당신이 읽고있는이 물질은 아마도 주장 아니라고 또는 에 대한 볼록 ,하지만 에 대한 볼록 과 그들이 무엇이든간에. 이 이후의 진술은 모든 연속적인 및 대해 입증 될 수 있습니다 . a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

수렴 알고리즘 혼동

질문이 합리적인 MSE 수렴 마진 내 에서 근사한 특정 및 를 달성하는 방법 이 혼란 스러울 수 있는지 여부는 "예"입니다. 그렇기 때문에 MSE가 유일한 오류 모델이 아닙니다.a(x,p)s(x)a(x,p)

요약

가장 좋은 방법은 다음 지식을 바탕으로 를 일련의 스톡 볼록 오류 모델에서 정의하거나 선택해야한다는 것입니다.e(β)

  • 시스템 알려진 속성s(x)
  • 근사 모델 의 정의a(x,p)
  • 수렴 시퀀스에서 다음 상태를 생성하는 데 사용되는 텐서

스톡 볼록 오차 모델 세트는 단순성과 계산 적산 때문에 MSE 모델을 포함합니다.


따라서 짧은 대답은 MSE wrt Theta가 항상 볼록하다는 것입니다. Feedforard (X, Theta)는 볼록하지 않습니까?
user74211

글쎄, @ user74211, 그 의견은 실제로 질문에 대답하지 않습니다. 구체적으로 HOW는 해당 함수가 적용되지 않는 경우 항상 제곱 오차가 볼록 할 수 있음을 질문했습니다. 귀하의 의견은 해당 설명이없는 질문의 진술 중 일부입니다.
FauChristian 2012 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.