안장에 어떻게 갇힐 수 있습니까?


14

나는 현재 미니 배치 그라디언트 디센트가 안장 점에 갇히는 방법에 약간 당황합니다.

해결책은 너무 사소한 것일 수도 있습니다.

사용자는 각 에포크 새로운 샘플을 얻고, 비용 함수는 각 배치에 대한 정적 인 그래서, 새로운 배치에 기초하여 새로운 에러를 산출하는 기울기는 각 미니 일괄 변하지 .. 이에 따라한다는 것을 의미 해야 바닐라 구현에 새들 포인트에 문제가 있습니까?

신경망에 공통적 인 높은 비 볼록 오류 기능을 최소화하는 또 다른 주요 과제는 수많은 차선책 로컬 최소 점에 갇히는 것을 피하는 것입니다. Dauphin et al. [19]는 실제로 지역 최소 점에서가 아니라 안 장점, 즉 한 차원이 위를 향하고 다른 차원이 아래로 경 사진 점에서 어려움이 발생한다고 주장한다. 이 새들 포인트는 일반적으로 같은 오류의 고원으로 둘러싸여 있으며, 모든 치수에서 기울기가 0에 가까워 지므로 SGD가 탈출하기 어려운 것으로 악명이 높습니다.

나는 특히 SGD가 수렴을 향해 변동함에 따라 안 장점에 대해 분명한 이점을 가질 수 있음을 의미 할 것입니다.

전체 배치 그라디언트 괜찮은 경우 오류 함수가 일정하므로 안장 점에 갇힐 수 있다는 것이 합리적입니다.

나는 다른 두 부분에 약간 혼란스러워합니다.


1
모티가 가져옵니다. 경사가 매우 높고 경사가 0 인 안 장점은 복구 할 수없는 "배드 랜드"로 큰 단계를 거쳐 경사 하강을 시작합니다. 본질적으로 평평한 평원에서 우물을 찾는 것에 대해 생각하십시오. 이제 우물을 건조하고 중앙에 개미 언덕이 있다고 생각하십시오. 개미 언덕에 있지만 그라디언트 디센트는 정확한 상단이 아니라 검색을 방사상으로 발사합니다. 이제 검색의 단계 크기가 우물의 직경보다 천 배 더 크다고 상상해보십시오. 검색 이제까지 잘, 몬타나에 개미집 촬영 그것을 발견하면
분석 재개 모니카 - EngrStudent

나는 당신이 묻는 것을 혼란스럽게 생각합니다. SGD가 가지고있는 상속 소음으로 인해 SGD가 안 장점에 갇히지 않는 이유가 혼란스러워서 탈출 할 수 있어야합니까? (풀 배치 GD 인 경우와 달리, 그래디언트가 0이고 잡음이 없으면 탈출 할 수없는 것입니다.)
Pinocchio

답변:


16

Off Convex 에서 아래 이미지를보십시오 . 볼록 함수 (가장 왼쪽 이미지)에는 단 하나의 로컬 최소값이 있으며 이는 글로벌 최소값이기도합니다. 그러나 볼록하지 않은 기능 (가장 오른쪽 이미지)에서는 여러 개의 로컬 최소값이있을 수 있으며 종종 두 개의 로컬 최소값에 합류하는 것이 안장입니다. 더 높은 지점에서 접근하는 경우 그라디언트가 비교적 평평하며 특히 한 방향으로 만 이동하는 경우 그라디언트가 고착 될 위험이 있습니다.

새들 포인트의 다이어그램 표현

이제 가장 중요한 것은 미니 배치를확률 론적 경사 하강, 기본 비 볼록 함수는 동일하며, 경사는이 함수의 속성입니다. 미니 배치를 수행 할 때 한 번에 많은 샘플을 고려하고 모든 샘플에 대해 평균 그라디언트 단계를 수행하십시오. 이것은 분산을 줄입니다. 그러나 평균 그라디언트 방향이 여전히 새들 포인트와 같은 방향을 가리키고 있다면 여전히 멈출 위험이 있습니다. 비유는, 당신이 2 걸음 앞으로 한 걸음 뒤로 물러서서 평균을 넘어 서면 결국 1 걸음 앞으로 나간다는 것입니다. 대신 SGD를 수행하면 모든 단계를 차례대로 수행하지만 여전히 한 방향으로 이동하는 경우 새들 포인트에 도달하고 모든면의 그라디언트가 상당히 평탄하고 단계 크기가 이 평평한 부분을 지나치기에는 너무 작습니다. 이건

여기 에서 시각화를 살펴보십시오 . SGD의 경우에도 변동이 한 차원에서만 발생하고 단계가 점점 작아지면 안 장점에서 수렴됩니다. 이 경우, 미니 배치 방법은 변동량을 줄일뿐 그래디언트 방향을 변경할 수는 없습니다.

SGD 때때로 변동이 다른 방향을 따르고 단계 크기가 평탄도를 넘어갈 정도로 큰 경우 간단한 새들 포인트에서 벗어날 수 있습니다 . 그러나 때때로 안장 영역은 아래 이미지와 같이 상당히 복잡 할 수 있습니다.

복잡한 안장 지역

운동량, ADAGRAD, Adam 등의 방법이이를 벗어날 수있는 방법은 과거의 기울기를 고려하는 것입니다. 운동량을 고려하십시오.

vt=γvt1+ηthetaJ(θ)

vt1


글쎄요! 실제로 답변을 보려면 stats.stackexchange.com/a/284399/117305
alifornia

@AliAbbasinasab 나는 안티몬이 잘 설명한다고 생각합니다. 물론, 일반적인 안장에 갇히는 것은 대답에서 언급 한 바와 같지 않지만 SGD가 잡힐 가능성을 보여주었습니다. 그리고 그는 SGD가 탈출 할 수없는 특이한 안장 점을 보여줬습니다.
Kazuya Tomita

2

해서는 안됩니다.

[ 1 ]은 무작위 초기화적절한 일정한 스텝 크기의 경사 하강 이 안 장점으로 수렴하지 않는 것으로 나타났습니다 . 긴 토론이지만 다음 예제를 보는 이유에 대한 아이디어를 제공합니다.

f(x,y)=12x2+14y412y2

여기에 이미지 설명을 입력하십시오

z1=[00],z2=[01],z3=[01]
.

z2z3z1

z0=[x0]z1z1xR2

2f(x,y)=[1003y21]

2f(z1)xxz1


매번 새들 포인트에
갇히는 반례

1
귀하의 링크에 도달 할 수 없었습니다 [1]. 전체 인용을 제공 할 수 있습니까? 그 사이에, 귀하의 주장에 대한 반례를 구성 할 수 있으며, 이는 언급되지 않은 추가적인 가정에 근거해야 함을 나타냅니다.
whuber

@ whuber 당신은 쉽게 반례를 요리 할 수 ​​있습니다. 예를 들어, 공간으로 줄만있는 경우. 나는 방금 많은 사람들에게 명확하지 않은 점을 추가하려고 시도했습니다 (처음에는 나에게 너무 명확하지 않았습니다). 참조에 대해, 왜 당신이 그것을 도달 할 수 없는지 모르겠습니다. 다시 확인했는데 링크가 유효하고 업데이트되었습니다. 2019 년 4 월 19 일, 버클리 Statistcs University of California, Bertley, Statistcs University of California, Berkeley, Statistcs University of California, Berkeley, Statistcs University of California, Berkeley에서 "
alifornia 2016 년

참조 주셔서 감사합니다. 이를 한 눈에 살펴보면 (현재 링크가 작동 함) 분석이 "엄격한 중철"(Hessian의 양수 및 음수 고유 값이 모두있는)으로 제한되어 많은 가능성을 배제 할 수 있습니다. 이 논문의 마지막 진술에는 "엄격한 안장 조건이 실패 할 때 매우 어려운 제한되지 않은 최적화 문제가 있음을 주목하십시오"는 예시로서 quartic minimization을 제공합니다.
whuber

0

참조 된 논문으로 가면 (일괄 배치 SGD에서 안장없는 접근 방식이 실제로 어떻게 향상되는지 보여줍니다).

그래디언트 디센트 방법의 단계는 항상 새들 포인트에 가까운 올바른 방향을 가리 키므로 작은 절대 값의 고유 값에 해당하는 방향으로 작은 단계가 수행됩니다.

또한 안장 지점 근처에 "원고"가 있음을 나타냅니다 (즉, 안장이 가파르 지 않습니다).이 경우 너무 작은 단계를 수행하면 안장 영역을 벗어나기 전에 조기 수렴이 발생합니다. 이것이 볼록하지 않은 최적화이기 때문에 학습률의 수렴이이를 악화시킵니다.

문제가있는 영역에서 벗어날 수 있는지 확인하기 위해 미니 배치 SGD를 완료 한 후 (즉, 학습 속도 재설정) 반복 접근 방식을 시도 할 수 있습니다.


0

문제는 안장 점에 접근하는 동안 고원, 즉 (절대 값이 낮은) 그라디언트가있는 영역에 들어가는 것입니다. 특히 능선에서 접근 할 때. 따라서 알고리즘이 단계 크기를 줄입니다. 단계 크기가 줄어듦에 따라 모든 기울기 (모든 방향)는 절대 값이 작습니다. 그래서 알고리즘은 멈추고 최소한이라고 생각합니다.

단계를 줄이지 않으면 최소값을 뛰어 넘고 많은 것을 놓칠 수 있습니다. 어떻게 든 스텝 크기를 줄여야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.