신경망의 비용 함수는 볼록하지 않습니까?


36

신경망 의 비용 함수J(W,b) 이며 볼록하지 않은 것으로 주장됩니다 . 로지스틱 회귀의 비용 함수와 매우 유사하다는 것을 알기 때문에 왜 그런 식인지 이해가되지 않습니다.

볼록하지 않은 경우 2 차 미분 JW<0, 맞습니까?

최신 정보

@gung의 의견뿐만 아니라 아래의 답변 덕분에 숨겨진 층이 전혀 없다면 로지스틱 회귀와 같이 볼록한 점이 있습니다. 그러나 숨겨진 계층이있는 경우 숨겨진 계층의 노드와 후속 연결의 가중치를 변경하여 가중치에 대한 여러 솔루션을 사용하여 동일한 손실을 초래할 수 있습니다.

더 많은 질문이 있습니다.

1) 여러 지역 최소값이 있으며 일부 노드와 가중치 순열에 해당하기 때문에 일부 값이 동일해야합니다.

2) 노드와 가중치가 전혀 변경되지 않으면 볼록합니까? 그리고 최소값은 글로벌 최소값이됩니다. 그렇다면 1)에 대한 답은 모든 지역 최소값이 동일한 값일 것입니다. 맞습니까?


여러 개의 로컬 최소값이있을 수 있다는 점에서 볼록하지 않습니다.
gung-Monica Monica 복원

2
신경망에 따라 다릅니다. 선형 활성화 기능과 제곱 손실이있는 신경망은 볼록 최적화를 제공합니다 (고정 분산이있는 방사형 기본 기능 네트워크에도 메모리가 올바르게 제공되는 경우). 그러나 신경망은 대부분 비선형 활성화 기능 (즉, 시그 모이 드)과 함께 사용되므로 최적화가 볼록하지 않게됩니다.
Cagdas Ozgenc

@ gung, 당신의 요점을 얻었고, 이제 더 많은 질문이 있습니다. 내 업데이트를 참조하십시오 :-)
avocado

5
이 시점에서 (2 년 후), 질문을 이전 버전으로 롤백하고 아래 답변 중 하나를 수락하고 상황에 따라이 링크를 연결하는 새로운 후속 질문을하는 것이 좋습니다.
gung-모니 티 복원

1
@ gung, 그렇습니다.하지만 지금은 내가 이전에 대답 한 답변의 일부 측면에 대해 잘 모르겠습니다. 글쎄, 아래 답변에 대한 새로운 의견을 남겼으므로 새로운 질문이 필요한지 잠시 기다립니다.
아보카도

답변:


25

신경망의 비용 함수는 일반적으로 볼록하거나 오목하지 않습니다. 이것은 모든 두 번째 부분 도함수 (헤 시안)의 행렬이 양의 반정 도나 음의 반 정도가 아님을 의미합니다. 이차 미분은 행렬이므로, 둘 중 어느 것도 아닐 수 있습니다.

x2x2sin(x)R±x2sin

J(W,b)

J


좋아, 나는 당신이 만든 순열 설명을 이해하고, 그것이 의미가 있다고 생각하지만, 이것이 왜 이것이 신경망이 볼록하지 않은지를 설명 할 수있는 진짜 질문인지 궁금합니다.
아보카도

1
'진정한 것'이란 무엇입니까?
Roland

내 말은, 이것이 유추가 아니라 해석되어야하는 방법입니다.
아보카도

4
@loganecolss 이것이 비용 함수가 볼록하지 않은 유일한 이유 일뿐만 아니라 가장 분명한 이유 중 하나라는 것이 맞습니다. 네트워크와 훈련 세트에 따라 여러 가지 최소값이있는 다른 이유가있을 수 있습니다. 그러나 결론은 다음과 같습니다. 퍼머 레이션만으로도 다른 효과와 상관없이 볼록성이 없습니다.
Roland

1
마지막 단락을 이해할 수 없습니다. 그러나 왜 내가 max (0, x)를 언급했는지 이해하지 못합니다. 어쨌든-여러 모드 (여러 로컬 최소값)가 어떤 방식으로 증명되고 있는지를 보여주는 올바른 방법이라고 생각합니다. ps Hessian이 무기한이라면 아무 말도하지 않았습니다. quasiconvex 함수는 무기한 Hessian을 가질 수 있지만 여전히 단조롭습니다.
bruziuz

17

숨겨진 레이어에서 뉴런을 퍼 뮤트하고 인접한 레이어의 가중치에 대해 동일한 순열을 수행하면 손실은 변하지 않습니다. 따라서 가중치의 함수로 0이 아닌 전역 최소값이 있으면 가중치의 순열이 다른 최소값을 제공하므로 고유 할 수 없습니다. 따라서 기능은 볼록하지 않습니다.


5

목적 함수가 볼록한지 여부는 네트워크의 세부 사항에 따라 다릅니다. 여러 개의 로컬 최소값이 존재하는 경우 모두 동일한 지 여부를 묻습니다. 일반적으로 대답은 '아니오'이지만, 일반화 성능이 좋은 로컬 최소값을 찾을 가능성은 네트워크 크기에 따라 증가하는 것으로 보입니다.

이 논문은 흥미 롭다 :

Choromanska et al. (2015). 멀티 레이어 네트워크의 손실 표면

http://arxiv.org/pdf/1412.0233v3.pdf

소개에서 :

  • 대규모 네트워크의 경우 대부분의 로컬 최소값은 동일하며 테스트 세트에서 유사한 성능을 제공합니다.

  • 소규모 네트워크의 경우 "나쁜"(높은 값) 로컬 최소값을 찾을 확률은 0이 아니며 네트워크 크기에 따라 빠르게 줄어 듭니다.

  • 훈련 세트에서 전체 최소값을 찾는 데 어려움을 겪는 것은 (많은 좋은 현지 훈련 중 하나와 달리) 실제로 유용하지 않으며 과적 합으로 이어질 수 있습니다.

또한 대규모 네트워크를 훈련 할 때 새들 포인트가 로컬 최소보다 큰 문제를 설명하는 논문을 인용했습니다.


4

업데이트에 대한 답변 :

  1. 예, 일반적으로 여러 지역 최소값이 있습니다. (단 하나만 있으면 전역 최소값이라고합니다.) 지역 최소값이 반드시 같은 값일 필요는 없습니다. 일반적으로 동일한 값을 공유하는 로컬 최소값이 없을 수 있습니다.

  2. 아니요, 단층 네트워크가 아니면 볼록하지 않습니다. 일반적인 다중 계층의 경우, 이후 계층의 매개 변수 (가중치 및 활성화 매개 변수)는 이전 계층의 매개 변수의 재귀 함수일 수 있습니다. 일반적으로, 일부 재귀 적 구조에 의해 도입 된 결정 변수의 곱셈은 볼록성을 파괴하는 경향이있다. 이것의 또 다른 좋은 예는 시계열 분석에서 MA (q) 모델입니다.

yXyXβ


1
"1 계층 네트워크"는 "softmax"또는 로지스틱 회귀가 어떻게 생겼을까 요?
아보카도

"노드 및 가중치 변경"은 "스와핑"을 의미하며, 위의 두 가지 이전 답변에서 얻은 것입니다. 해답을 이해 한 것처럼 숨겨진 레이어 에서 노드와 가중치를 "스왑" 함으로써 이론상 동일한 결과를 보여 주므로 여러 개의 최소값을 가질 수 있습니다. 이 설명이 올바르지 않다는 것을 의미합니까?
아보카도

당신은 올바른 생각을 가지고 있지만 그다지 같지는 않습니다. 네트워크의 경우 손실이 반드시 이항 손실 일 필요는 없으며 활성화 기능이 반드시 시그 모이 드일 필요는 없습니다.
Mustafa S Eisa

예, 옳지 않다고 생각합니다. 이러한 용어를 훼손하든 말든 동일한 성능을 얻는 것이 사실이지만 이것이 문제의 볼록 또는 비 볼록을 정의하지는 않습니다. A에 대한, 경우 최적화 문제는 볼록한 고정 손실 함수 (안 손실의 조건 중 어느 순열), 목적 함수는 모델 파라미터 및 볼록 닫힐 최적화 된시 가능한 영역에 볼록이다.
Mustafa S Eisa

"one-layer"인 경우 "softmax"가 아닐 수 있습니다.
아보카도

2

문제가 볼록 또는 쿼시 콘벡 인 경우 하나의 전역 최소값을 갖습니다.

신경망 구축 중 볼록한 "빌딩 블록"정보 (Computer Science 버전)

나는 언급 할 수있는 몇 가지가 있다고 생각합니다.

  1. 최대 (0, x)-볼록하고 증가

  2. log-sum-exp-각 매개 변수에서 볼록하고 증가

  3. y = Ax는 가늘고 (A)에서 볼록하므로 증가 할 수도 있습니다. y = Ax는 가늘고 (x)로 볼록하며, 아마도 증가 할 수도 있습니다.

불행히도 (A, x)에서는 볼록하지 않습니다. 왜냐하면 이차 형태는 무기한입니다.

  1. 일반적인 수학 이산 컨벌루션 ( "일반적인"으로 반복 신호로 정의 됨) Y = h * X h 또는 변수 X의 아핀 함수 인 것으로 보입니다. 따라서 변수 h 또는 변수 X에서 볼록합니다. 두 변수에 대해- h와 X가 스칼라 일 때 회선은 무한 2 차 형태로 줄어들 기 때문에 그렇게 생각하지 않습니다.

  2. max (f, g)-f와 g가 볼록하면 max (f, g)도 볼록합니다.

하나의 함수를 다른 함수로 대체하고 컴포지션을 만들면 y = h (g (x), q (x))에 대한 볼록 공간에 있지만 h는 볼록해야하며 각 인수에서 증가하지 않아야합니다. ...

볼록하지 않은 신경 netwoks 왜 :

  1. 컨볼 루션 Y = h * X는 h에서 꼭 필요한 것은 아닙니다. 따라서 커널에 대한 추가 가정을 사용하지 않으면 컨볼 루션을 적용한 직후 볼록 최적화에서 벗어날 수 있습니다. 따라서 작곡에 대한 모든 훌륭한 것은 없습니다 .

  2. 또한 위에서 언급 한 것처럼 커플 매개 변수 를 고려하면 컨벌루션과 행렬 곱셈은 볼록하지 않습니다 . 따라서 행렬 곱셈에는 문제가 있습니다. 매개 변수 (A, x)에서 볼록하지 않은 연산입니다.

  3. y = Ax는 (A, x)에서 quasiconvex 일 수 있지만 추가 가정도 고려해야합니다.

동의하지 않거나 추가로 고려해야 할 사항이 있으면 알려주십시오. 그 질문은 나에게도 매우 흥미 롭습니다.

ps max-pooling-max를 선택하여 다운 샘플링하는 것은 필요한 블록을 풀기 위해 affine precomposition을 사용하여 elementwise max 작업을 수정 한 것처럼 보이며 볼록하게 보입니다.

다른 질문에 대해

  1. 로지스틱 회귀는 볼록하거나 오목하지 않지만 로그 오목입니다. 이것은 대수를 적용한 후에 설명 변수에서 오목한 기능을한다는 것을 의미합니다. 따라서 최대 로그 가능성 트릭이 좋습니다.

  2. 글로벌 최소값이 하나만없는 경우 지역 최소값 간의 관계에 대해서는 말할 수 없습니다. 또는 볼록 최적화를 사용할 수 없으며 확장 기능이 있습니다. 수학의이 영역은 글로벌 과소 평가를 기반으로하기 때문입니다.

아마도 당신은 이것에 대해 혼란 스러울 것입니다. 실제로 그러한 스키마를 만드는 사람들은 "무언가"를하고 "무언가"를 받기 때문입니다. 불행하게도 볼록하지 않은 최적화 (일반적으로)를 다루는 완벽한 메커니즘이 없기 때문입니다.

그러나 신경망 옆에 더욱 간단한 일이있다 - 같이 해결할 수없는 비는 선형 최소 제곱 - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.