정규화 된 그라디언트 및 그라디언트 사용의 차이점


15

그래디언트 디센트 알고리즘의 일반적인 설정에는 여기서 은 현재 점이고 는 단계 크기이고 은 그래디언트입니다. 에서 평가되었습니다 . x n η g r a d i e n t x n x nxn+1=xnηgradientxnxnηgradientxnxn

일부 알고리즘에서 사람들은 gradient 대신 normalized gradient를 사용 합니다 . 정규화 된 그래디언트 와 단순히 그래디언트 를 사용하는 것의 차이점이 무엇인지 알고 싶었습니다 .


1
질문을해도 되나요? 그래디언트 벡터를 이미 얻은 경우 어떻게 정규화 된 그래디언트를 계산할 수 있습니까? 그라디언트 벡터가 숫자가 크면 그라디언트를 정규화해야합니다. 그래디언트 정규화에 대한 직관적 인 예를 들어 주시겠습니까? 감사합니다!

답변:


12

경사 하강 알고리즘에서 알고리즘은 최적의 솔루션을 찾을 수있는 방향을 찾아 진행합니다. 최적의 방향은 기울기로 나타납니다. 그러나 방향에만 관심이 있고 해당 방향을 따라 얼마나 멀리 이동해야하는지는 아니기 때문에 일반적으로 그래디언트의 크기에는 관심이 없습니다. 따라서, 정규화 구배는 우리의 목적을 위해 충분한이며, 우리는 할 수η우리가 계산 된 방향으로 얼마나 멀리 이동할 것인지를 지시합니다. 그러나 비정규 그라디언트 디센트를 사용하는 경우 어느 시점에서든 최적의 방향으로 이동하는 거리는 그라디언트의 크기에 따라 결정됩니다 (기본적으로 목적 함수의 표면에 의해 결정됩니다. 예를 들어 가파른 표면의 점은 상당히 평평한 표면의 점은 크기가 낮습니다).

위에서, 기울기의 정규화는 당신이 얻는 추가적인 제어력이라는 것을 깨달았을 것입니다 (유용한 지 아닌지는 특정 응용 프로그램에 달려 있습니다). 위의 의미는 다음과 같습니다.
1] 알고리즘이 모든 반복에서 고정 된 단계 크기로 이동하도록하려면 fixed 와 함께 정규화 된 그라디언트 디센트를 사용할 수 있습니다 . 2] 알고리즘이 사용자가 정확하게 지시 한 단계 크기로 이동하도록하려면 로 인코딩 된 단계 크기에 대한 특정 함수와 함께 정규화 된 그래디언트 디센트를 사용할 수 있습니다 .ηη
η
3] 그래디언트의 크기가 단계 크기를 결정하게하려면 정규화되지 않은 그래디언트 디센트를 사용합니다. 그래디언트의 크기가 단계 크기를 결정하도록 할 수있는 것과 같은 몇 가지 다른 변형이 있지만 그 위에 캡을 두는 등의 방법이 있습니다.

이제 스텝 크기는 수렴 속도와 안정성에 분명히 영향을 미칩니다. 위의 단계 크기 중 가장 적합한 단계는 응용 프로그램 (예 : 목적 함수)에 따라 다릅니다. 어떤 경우에는 수렴 속도, 안정성 및 단계 크기 간의 관계를 분석 할 수 있습니다. 이 관계는 정규화 또는 비정규 그라디언트 디센트로 가고 싶은지에 대한 힌트를 줄 수 있습니다.

요약하자면, 정규화와 비정규 그라디언트 디센트 사이에는 차이가 없습니다 (알고리즘 배후 이론이 적용되는 한). 그러나 수렴 속도와 안정성에 실질적인 영향을 미칩니다. 하나의 선택은 순전히 응용 / 목표에 기반합니다.


예를 들어 첫 번째 그라디언트를 기반으로 정규화하는 중간 방법을 사용할 수 있습니다. 이것은 여전히 ​​단계 크기의 관점에서 상대적인 경사 크기를 중요하게 만듭니다.
dashnick

2

실제로 중요한 것은 를 선택 하는 방법 입니다. 단계 크기가 그라디언트 의 배 길이를 동일 하게 만드는 방식으로 단계 크기를 선택한 경우 정규 그라디언트 또는 비정규 그라디언트를 사용하는지는 중요하지 않습니다 . ηηη


2

수렴 속도가 빠른 방법은 특정 목표에 따라 다르며 일반적으로 정규 그라디언트를 사용합니다. 왜 당신이 이것을하고 싶을 지에 대한 좋은 예는 간단한 2 차입니다 : . 이 경우 주어진 경사 하강 궤적을 설명하는 ODE (단계 크기가 0에 가까워짐)를 분석적으로 결정할 수 있습니다., Y ( t ) = X 0 / | | x 0 | | * e - tf(x)=xTxy(t)=x0/||x0||et. 따라서 임계점에 접근하면 그라디언트의 표준이 기하 급수적으로 빠르게 감소합니다. 이러한 경우에는 매우 느리게 접근하는 것보다 몇 분 동안 앞뒤로 튀는 것이 좋습니다. 그러나 일반적으로 1 차 방법은 임계점 주변에서 수렴이 매우 느리게 알려져 있으므로 정확성에 관심이있는 경우에는 사용하지 않아야합니다. 분석적으로 목표의 Hessian을 계산할 수없는 경우 여전히 목표 (BFGS)에 근접 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.