문제가 볼록 또는 쿼시 콘벡 인 경우 하나의 전역 최소값을 갖습니다.
신경망 구축 중 볼록한 "빌딩 블록"정보 (Computer Science 버전)
나는 언급 할 수있는 몇 가지가 있다고 생각합니다.
최대 (0, x)-볼록하고 증가
log-sum-exp-각 매개 변수에서 볼록하고 증가
y = Ax는 가늘고 (A)에서 볼록하므로 증가 할 수도 있습니다. y = Ax는 가늘고 (x)로 볼록하며, 아마도 증가 할 수도 있습니다.
불행히도 (A, x)에서는 볼록하지 않습니다. 왜냐하면 이차 형태는 무기한입니다.
일반적인 수학 이산 컨벌루션 ( "일반적인"으로 반복 신호로 정의 됨) Y = h * X h 또는 변수 X의 아핀 함수 인 것으로 보입니다. 따라서 변수 h 또는 변수 X에서 볼록합니다. 두 변수에 대해- h와 X가 스칼라 일 때 회선은 무한 2 차 형태로 줄어들 기 때문에 그렇게 생각하지 않습니다.
max (f, g)-f와 g가 볼록하면 max (f, g)도 볼록합니다.
하나의 함수를 다른 함수로 대체하고 컴포지션을 만들면 y = h (g (x), q (x))에 대한 볼록 공간에 있지만 h는 볼록해야하며 각 인수에서 증가하지 않아야합니다. ...
볼록하지 않은 신경 netwoks 왜 :
컨볼 루션 Y = h * X는 h에서 꼭 필요한 것은 아닙니다. 따라서 커널에 대한 추가 가정을 사용하지 않으면 컨볼 루션을 적용한 직후 볼록 최적화에서 벗어날 수 있습니다. 따라서 작곡에 대한 모든 훌륭한 것은 없습니다 .
또한 위에서 언급 한 것처럼 커플 매개 변수 를 고려하면 컨벌루션과 행렬 곱셈은 볼록하지 않습니다 . 따라서 행렬 곱셈에는 문제가 있습니다. 매개 변수 (A, x)에서 볼록하지 않은 연산입니다.
y = Ax는 (A, x)에서 quasiconvex 일 수 있지만 추가 가정도 고려해야합니다.
동의하지 않거나 추가로 고려해야 할 사항이 있으면 알려주십시오. 그 질문은 나에게도 매우 흥미 롭습니다.
ps max-pooling-max를 선택하여 다운 샘플링하는 것은 필요한 블록을 풀기 위해 affine precomposition을 사용하여 elementwise max 작업을 수정 한 것처럼 보이며 볼록하게 보입니다.
다른 질문에 대해
로지스틱 회귀는 볼록하거나 오목하지 않지만 로그 오목입니다. 이것은 대수를 적용한 후에 설명 변수에서 오목한 기능을한다는 것을 의미합니다. 따라서 최대 로그 가능성 트릭이 좋습니다.
글로벌 최소값이 하나만없는 경우 지역 최소값 간의 관계에 대해서는 말할 수 없습니다. 또는 볼록 최적화를 사용할 수 없으며 확장 기능이 있습니다. 수학의이 영역은 글로벌 과소 평가를 기반으로하기 때문입니다.
아마도 당신은 이것에 대해 혼란 스러울 것입니다. 실제로 그러한 스키마를 만드는 사람들은 "무언가"를하고 "무언가"를 받기 때문입니다. 불행하게도 볼록하지 않은 최적화 (일반적으로)를 다루는 완벽한 메커니즘이 없기 때문입니다.
그러나 신경망 옆에 더욱 간단한 일이있다 - 같이 해결할 수없는 비는 선형 최소 제곱 - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)