확률 적 그라디언트 디센트는 어떻게 지역 최소의 문제를 피할 수 있습니까?


19

확률 적 그라디언트 디센트는 임의의 동작을 가지고 있지만 그 이유를 모르겠습니다.
이것에 대한 설명이 있습니까?


10
당신의 질문은 당신의 직함과 어떤 관련이 있습니까?
Neil G

답변:


22

SG (stochastic gradient) 알고리즘은 SG의 학습 속도가 SA의 온도와 관련이있는 SA (simulated annealing) 알고리즘처럼 동작합니다. SG에서 발생하는 임의성 또는 노이즈로 인해 로컬 최소 점에서 벗어나 더 나은 최소값에 도달 할 수 있습니다. 물론 학습 속도를 얼마나 빨리 내릴 수 있는지에 달려 있습니다. 신경망에서확률 적 그라디언트 학습 섹션 4.2 (pdf) 를 자세히 살펴보십시오.


4
두 번째 정리는 볼록하지 않은 함수의 제한된 경우에 대한 섹션 4.1을 oveelook하지 마십시오. (무한 샘플로) 기울기가 0 인 특정 지점으로 만 수렴한다고합니다. . SGD는 분산 학습과 같은보다 실용적인 이유로 더 흥미 롭습니다. 지역 최소값을 "피할 것"은 아닙니다.
nil

2

확률 구배 하강에서, 모든 샘플은 규칙적인 구배 하강 (배치 구배 하강)의 전체 샘플과 반대로 모든 관측치에 대해 파라미터가 추정된다. 이것이 많은 무작위성을 제공합니다. 확률 적 그라디언트 하강의 경로는 더 많은 곳을 돌아 다니므로 지역 최소값에서 "점프"하여 글로벌 최소값을 찾을 가능성이 더 높습니다 (주 *). 그러나 확률 적 경사 하강은 여전히 ​​지역 최소값에 머물러있을 수 있습니다.

참고 : 학습률을 일정하게 유지하는 것이 일반적이며,이 경우 확률 적 경사 하강은 수렴하지 않습니다. 같은 지점을 돌아 다니다 그러나 학습 속도가 시간이 지남에 따라 감소하면 반복 횟수와 반비례 관계가 있으며 확률 적 경사 하강이 수렴합니다.


확률 적 그라디언트 디센트가 실제로 수렴하지 않고 특정 지점에서 궁금해하는 것은 사실이 아닙니다. 학습률이 일정하게 유지되는 경우에도 마찬가지입니다. 그러나 알고리즘이 볼록 함수의 최소값에 가까울 때 진동이 멈추고 수렴하기 때문에 학습 속도가 0 인 경향이 있습니다. 확률 적 기울기의 수렴 증거의 핵심은 일련의 학습률에 부과되는 조건입니다. Robbins와 Monro의 원본 논문의 방정식 (6)과 (27)을 참조하십시오.
clara

2

이전 답변에서 이미 언급했듯이 확률 적 그라디언트 디센트는 각 샘플을 반복적으로 평가하기 때문에 훨씬 잡음이 많은 오류 표면을 가지고 있습니다. 모든 에포크 (배치 세트를 통과)에서 배치 그라디언트 디센트에서 글로벌 최소값을 향한 발걸음을 내딛는 동안 확률 적 그라디언트 디센트 그라디언트의 개별 단계가 평가 된 샘플에 따라 항상 글로벌 최소값을 가리켜서는 안됩니다.

2 차원 예제를 사용하여이를 시각화하기 위해 Andrew Ng의 기계 학습 클래스의 그림과 그림이 있습니다.

첫 번째 그라데이션 하강 :

여기에 이미지 설명을 입력하십시오

둘째, 확률 적 경사 하강 :

여기에 이미지 설명을 입력하십시오

아래쪽 그림의 빨간색 원은 확률 적 학습 강하를 사용하는 경우 확률 적 경사 하강이 전 세계 최소 영역 어딘가에서 "업데이트 유지"함을 보여줍니다.

확률 적 그라디언트 디센트를 사용하는 경우 유용한 팁이 있습니다.

1) 각 시대 이전에 훈련 세트를 섞는다 (또는 "표준"변형에서 반복)

2) 적응 형 학습률을 사용하여 전 세계 최소값에 가까운 "어닐링"


각 시대 이전에 트레이닝 세트를 섞고 싶은 이유는 무엇입니까? SGD 알고리즘은 훈련 예제를 임의로 선택합니다.
Vladislavs Dovgalecs

셔플 링은 기본적으로 훈련 샘플을 무작위로 선택하는 한 가지 방법입니다. 내 구현에서, 나는 보통 각 시대 이전에 훈련 세트를 for섞은 다음 섞인 세트를 통해 루프를

2
흠, 위키 백과에서 SGD 알고리즘은 "대체없이"기술되었지만, Bottou는 그랬듯이 (Bottou, Léon. "확률 적 기울기 강하를 이용한 대규모 머신 러닝") COMPSTAT '2010. Physica-Verlag의 절차. HD, 2010. 177-186.), 나는이 위키 백과 항목보다 Bottou를 더 신뢰하는 경향이 있다고 생각합니다.

4
@xeon 이 문서를 확인하십시오 . 교체없이 샘플링하는 것이 더 좋습니다. 필자는 교체가 없으면 경험적으로 월등 한 경향이 있지만, 최근까지 이론적 분석을 이용할 수 없었다는 것을 알고 있습니다.
Dougal

1
@xeon 방금 Andrew Ng의 과정에서 내 PDF 슬라이드를 보았는데 Bottou와는 다른 Wikipedia ( "대체없이"변형)에서 설명한 것 같습니다. 여기
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.