답변:
예, 두 가지 트릭을 모두 사용하는 것이 매우 일반적입니다. 그들은 다른 문제를 해결하고 함께 잘 작동 할 수 있습니다.
그것을 생각하는 한 가지 방법은 무게 감퇴 가 최적화되는 기능을 변화 시키는 반면 운동량 은 최적의 경로를 변화 시키는 것 입니다.
무게 감쇄는 계수를 0으로 줄임으로써 작은 크기의 매개 변수를 사용하여 국소 최적을 찾을 수 있습니다. 이는 일반적으로 초과 피팅을 피하는 데 중요합니다 (무게에 대한 다른 종류의 구속 조건도 작동 할 수 있음). 부수적 인 이점으로, 목적 함수를 더 볼록하게 만들어 모델을보다 쉽게 최적화 할 수도 있습니다.
객관적인 기능이 있으면 이동 방법을 결정해야합니다. 그래디언트에서 가장 가파른 하강이 가장 간단한 방법이지만 변동이 큰 문제가 될 수 있습니다. 운동량을 추가하면 문제를 해결하는 데 도움이됩니다. 배치 업데이트를 사용하는 경우 (일반적으로 신경망에서는 좋지 않은 생각) 뉴턴 유형 단계는 다른 옵션입니다. 새로운 "핫"접근 방식은 Nesterov의 가속 기울기와 소위 "Hessian-Free"최적화를 기반으로합니다.
그러나 사용하는 이러한 업데이트 규칙 (모멘텀, 뉴턴 등)에 관계없이 오류 함수 (예 : 제곱 오류) 및 기타 제약 (예 : 무게 감소)에 의해 결정되는 동일한 객관적인 함수로 작업하고 있습니다. . 이 중 어느 것을 사용할지 결정할 때 가장 중요한 질문은 얼마나 빨리 좋은 분량을 얻을 수 있는지입니다.