"거의 모든 지역 최소값은 전체 최적 값과 매우 유사한 기능 값을 가짐"이해


45

Rong Ge 의 최근 블로그 게시물 에서 다음과 같이 말했습니다.

딥넷 학습을 포함한 많은 문제의 경우 거의 모든 지역 최소값이 전역 최적 값과 매우 유사한 기능 값을 가지므로 지역 최소값을 찾는 것으로 충분합니다.

이 믿음은 어디에서 왔습니까?


14
이것이 실험적인 결과가 아니라면 놀랄 것입니다.
usεr11852는 다음과 같이 말합니다 : Reinstate Monic

답변:


69

최근 논문 멀티 레이어 네트워크의 손실 표면은 이에 대한 몇 가지 가능한 설명을 제공합니다. 초록에서 (굵게는 내 것입니다) :

"시뮬레이션 어닐링과 SGD는 모두 임계점이 낮은 대역으로 수렴하고 모든 임계점이 테스트 오류에 의해 측정 된 고품질의 로컬 최소값이 발견되었다고 추측합니다. 이는 대규모 및 소규모 네트워크의 주요 차이점을 강조합니다. 후자의 품질이 좋지 않은 지역의 경우 최소값이 회복 될 확률이 0이 아닙니다. 마지막으로, 우리는 네트워크 크기가 증가함에 따라 글로벌 최소값을 복구하는 것이 더 어려워지고 실제로 글로벌 최소값이 종종 과적 합을 초래하기 때문에 관련성이 없다는 것을 증명합니다 . "

딥 러닝에 많은 영향을 미치는 사람들 (Yan LeCunn 및 Yoshua Bengio) (예를 들어 Yen LeCunn 및 Yoshua Bengio)은 수학 각도 (Rong Ge 및 기타 Sanjeev Arora 공동 작업자)로부터 더 많은 사람들이 이러한 아이디어를 논의하고 탐구했습니다.

위의 참고 논문에서 그림 3은 그물에 숨겨진 단위가 많을 때 로컬 최소값의 밴딩 / 집중 현상을 보여줍니다. 밴딩 / 농도는 더 깊거나 더 큰 모델의 경우 손실 값이 거의 비슷하기 때문에 국소 최소값이 "충분히 우수"하다는 경험적 증거를 나타냅니다. 그리고 가장 중요한 것은 모델이 더 복잡해지면서 (이 경우에는 더 넓지 만 실제로는 더 깊어짐) 손실이 전체 최소값에 더 가깝다는 것입니다.

또한, 그들은 스핀 글래스 모델을 사용하는데,이 모델은 심지어 모델 일 뿐이며 반드시 실제 그림을 나타내는 것은 아닙니다. 지역 최소 점에서 글로벌 최소화기에 도달하면 기하 급수적으로 오래 걸릴 수 있음을 보여줍니다.

"더 낮은 거짓말 최소값을 찾으려면 안장 점을 통과해야합니다. 따라서 적어도 같은 안장 점이있는 수준까지 올라 가야 할 수있는 경로를 찾을 수있는 기회를 얻을 수 있습니다. 이 과정은 기하 급수적으로 오랜 시간이 걸리므로 실제로는 세계 최소값을 찾는 것이 실현 가능하지 않습니다. "

Rong Ge 연구는 안 장점 돌파에 중점을두고 있습니다. Yoshua Bengio와 그의 협력자들은 매우 대담한 Saddle Point Hypothesis를 제시했습니다.

여기서 우리는 통계 물리학, 랜덤 매트릭스 이론, 신경망 이론 및 경험적 증거의 결과를 바탕으로, 더 깊고 더 심오한 어려움이 안 장점의 확산에서 비롯된 것이지, 특히 실제 관심의 높은 차원 문제에서 국소 적 최소 점이 아니라고 주장한다 . 이러한 안장 지점은 학습 오류를 획기적으로 늦추고 지역 최소값이 존재한다는 환상적인 인상을 줄 수있는 오류가 많은 고원으로 둘러싸여 있습니다.

소스는 여기 : 식별 및 높은 차원이 아닌 볼록 최적화에 안장 포인트 문제를 공격.

위의 두 가지 접근법은 정확히 동일하지 않습니다 (새들 포인트 가설은 실제로 로컬 최소값이 무엇인지, 그리고 매우 긴 고원 지역의 조건이 좋지 않은 안장 포인트가 무엇인지 질문 할 수 있습니다). Saddle Point Hypothesis의 기본 개념은 Bengio 아티클의 Saddle-Free Newton과 같은 안 장점을 돌파하여 잠재적으로 수렴 속도를 높이고 글로벌 최적 수준에 도달 할 수있는 최적화 방법을 설계 할 수 있다는 것입니다. 첫 번째 다층 손실 표면 (Multilayer Loss Surface) 기사는 실제로 세계 최적에 도달하는 것에 관심이 없으며 실제로 과적 합 특성이 좋지 않다고 생각합니다. 흥미롭게도 두 기사 모두 통계 물리학 및 스핀 글래스 모델의 아이디어를 사용합니다.

그러나 두 기사 모두 글로벌 최소화에 도달하기 위해서는 안장 점의 최적화 문제를 극복해야한다고 생각합니다. 첫 번째 기사는 지역 최소치가 충분하다고 생각합니다.

2 차 곡률 특성을 추정 할 수있는 운동량 방법 및 기타 새로운 최적화 알고리즘이 안 장점을 벗어날 수 있는지 궁금합니다. Alec Radford의 유명한 애니메이션이 여기에 있습니다 .

귀하의 질문에 대답하기 위해 : "이 믿음은 어디에서 왔는가?"개인적으로 다른 랜덤 시드를 사용하여 다른 가중치를 학습 할 수 있다는 사실에서 비롯된 것으로 생각되지만 해당 그물은 비슷한 양적 성능을 가지고 있습니다. 예를 들어, Glorot 가중치 초기화를 위해 두 개의 다른 랜덤 시드를 설정하면 다른 가중치를 배울 수 있지만 유사한 최적화 방법을 사용하여 훈련하면 네트의 성능이 비슷합니다. 하나의 일반적인 민속 신앙은 최적화 풍경이 여기에 계란 판지, 또 다른 좋은 블로그 게시물의 그것과 유사하다는 것이다 : 더 이상 지역 최소값? 계란 판지 유추로.

편집 : 난 상자 카톤 비유가 사실이 아님을 분명히하고 싶었습니다. 그렇지 않으면 운동량이나 다른 고급 최적화 기술이 필요하지 않습니다. 그러나 SGD는 아마도 새들 포인트의 존재로 인해 SGD + Momentum 또는보다 현대적인 최적화 알고리즘만큼 잘 수행되지 않는 것으로 알려져 있습니다.


14
+1 인상적이고 유익한 정답-몇 개의 이해하기 쉬운 단락으로 중요한 하위 분야 내에서 아이디어와 현재 방향을 포착하는 것으로 보입니다.
whuber

답변 주셔서 감사합니다. Yann LeCun에 대해 언급 했으므로 이러한 아이디어 나 유사한 아이디어를 논의하는 특정 참고 문헌을 지적 할 수 있습니까?
John Donn

2
Hey John :이 글에서 언급 한 Loss Surface of Multilayer Nets 기사는 Yann이 공동 저술했습니다. Yann이 공동으로 작성한 또 다른 유사한 기사는 높은 차원의 풍경에 대한 탐구입니다 . 두 기사는 꽤 비슷합니다. 원래 언급 한 기사가 더 인기가있는 것 같습니다.
인디 AI

"더 이상 로컬 최소값 없음"링크가 종료되었습니다. 빠른 Google 검색을 통해 해당 블로그 게시물을 찾을 수 없습니다. 블로그 게시물이 오프라인 상태입니까? 아니면 단순히 움직입니까?
LMB
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.