답변:
그라데이션 하강은 각 단계에서 모든 매개 변수를 업데이트합니다. 업데이트 규칙에서이를 확인할 수 있습니다.
손실 함수의 기울기 때문에 치수와 치수가 일치하는 벡터 값입니다. 모든 매개 변수는 각 반복마다 업데이트됩니다.
학습률 그래디언트를 다시 스케일링하는 양수입니다. 너무 큰 단계를 밟으면 손실 기능이 개선되지 않고 손실 표면을 가로 질러 끝없이 튕겨 나갈 수 있습니다. 단계가 너무 작 으면 최적으로 진행되는 속도가 엄청나게 느려질 수 있습니다.
w1
와 w2
또는 그 편미분은 하강의 방향을 제시하면서 속도 / 수축을 학습하여 수행됩니다?
최적화가 부분 도함수를 통해 발생할 때, 매번 w1과 w2를 모두 변경하거나 w1 만 변경되는 반복 횟수가 적고 w1이 오류를 더 많이 줄이지 않으면 미분은 w2-to로 시작합니다. 지역 최소에 도달?
각 반복에서 알고리즘은 그래디언트 벡터를 기반으로 모든 가중치를 동시에 변경합니다. 실제로 그라디언트는 벡터입니다. 그래디언트의 길이는 모델의 가중치 수와 같습니다.
반면에, 한 번에 하나의 매개 변수를 변경하는 것이 존재하며 , 이는 기울기없는 최적화 알고리즘 의 한 유형 인 좌표 괜찮은 알고리즘 이라고 합니다 . 실제로는 그라디언트 기반 알고리즘뿐만 아니라 작동하지 않을 수 있습니다.
그라디언트 프리 알고리즘에 대한 흥미로운 답변입니다.
경사 하강의 목표는 비용 함수를 최소화하는 것입니다. 이 최소화는 케이스 w1과 w2의 무게를 조정하여 달성됩니다. 일반적으로 이러한 가중치는 n 개일 수 있습니다 .
그라데이션 하강은 다음과 같은 방식으로 수행됩니다.
가중치 (W1 또는 W2)가 변경되는 가중치를 업데이트하는 것은 전적으로 기울기로 결정됩니다. 모든 가중치가 업데이트됩니다 (일부 가중치는 그라디언트에 따라 변경되지 않을 수 있음).
sklearn
) 또는 R 패키지 (예 : caret
? )에 적용되는 기본값이 있습니까? 수동으로 생성 된 경사 하강 기능에서만 사용자를 지정할 수 있습니까?
w1
, 감소 와 같은 다른 조합을 시도 할 수w2
있으며 알고리즘이 반드시 글로벌 최소값을 항상 제공하지는 않을 것임을 확인합니까?