딥 러닝의 로컬 최소 점 vs 안 장점


18

Andrew Ng (안타깝게도 더 이상 찾을 수없는 비디오)에서 딥 러닝 문제에서 로컬 최소값에 대한 이해가 이제 고차원 공간에서 문제가 적은 것으로 간주된다는 의미에서 어떻게 변화했는지에 대한 이야기를 들었습니다. 딥 러닝) 임계점은 로컬 최소값보다 안 장점 또는 고원 일 가능성이 높습니다.

나는 "모든 지역 최소값이 세계 최소값"이라는 가정에 대해 논의한 논문 (예 : 논문 )을 보았다 . 이 가정은 모두 기술적 인 것이지만, 내가 이해 한 바에 따르면 신경망에 구조를 적용하여 다소 선형적인 경향이 있습니다.

딥 러닝 (비선형 아키텍처 포함)에서 고원이 지역 최소보다 더 가능성이 높다는 유효한 주장입니까? 그렇다면 그 뒤에 (수학적) 직관이 있습니까?

딥 러닝 및 안장에 특별한 점이 있습니까?


12
안장 점이 왜 지역 최소값보다 더 높은지에 대한 수학적 직관에 관해서는, 기능 측면에서 생각합니다. 로컬 최소값이 되려면 모든 방향에서 로컬 최소값이어야합니다. 반대로 중철 점의 경우 한 방향 만 다른 방향과 달라야합니다. 모든 방향에서 동일한 행동에 비해 하나 이상의 행동이 다른 행동과 다를 가능성이 훨씬 높습니다.
Paul

3
고마워, 이제 당신이 그것을 말했듯이, 그것은 분명합니다 ... 여기 에 주제에 대한 흥미로운 토론이 있습니다
oW_

4
Andrew Ng는 자신의 Coursera 코스 2 주차 "심층 신경망 개선 : 하이퍼 파라미터 튜닝, 정규화 및 최적화"에서 "로컬 최소값 문제"에 대한 비디오를 보유하고 있습니다. 아마 당신이 찾고있는 것입니다.
mjul

답변:


7

이것은 단순히 내 직감을 전달하려고 노력하는 것입니다. 즉 엄격하지 않습니다. 새들 포인트가있는 것은 최소와 최대의 조합을 결합한 최적의 유형이라는 것입니다. 딥 러닝에서는 차원 수가 너무 커서 최적 값 만 최소값 조합으로 구성 될 확률이 매우 낮습니다. 즉, 현지 최소값으로 '고착'되는 경우는 드 rare니다. 지나치게 단순화 할 위험이있는 경우, '치수 중 하나를 미끄러 뜨릴 수 있기 때문에'안 장점에 '집착'하기가 더 어렵습니다. Andrew Ng의 비디오는 Deepra의 Coursera 코스에서 나온 것 같습니다.


13

D=[d1dn]
d1>0,,dn>0

d1,,dndi1/2didjHessian 행렬의 비선형 성이 높기 때문에 독립 사건으로 긍정적 인 확률을 취할 것입니다.

P(d1>0,,dn>0)=P(d1>0)P(dn>0)=12n

1081/2n

그러나 맥시마는 어떻습니까?

1/2n

P(saddle)=1P(maximum)P(minimum)=112n12n=112n1

n

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.