볼록한 비용 함수가 주어지면 최적화를 위해 SGD를 사용하여 최적화 프로세스 중에 특정 지점에서 그라디언트 (벡터)를 갖게됩니다. 내 질문은 볼록한 점을 감안할 때 그라디언트가 함수가 가장 빠르게 증가 / 감소하는 방향만을 가리 키거나 그라디언트는 항상 비용 함수의 최적 / 극한 점을 가리 킵 니까? 전자는 지역 개념이고, 후자는 글로벌 개념입니다. SGD는 …
여기에는 비슷한 스레드가 있습니다 ( 신경 네트워크의 비용 함수는 볼록하지 않습니까? ). 나는 거기에 대한 답변의 요점을 이해할 수 없었으며 이것을 다시 요구하는 이유는 몇 가지 문제를 분명히 할 것입니다. 제곱 차분 비용 함수의 합계를 사용하는 경우 궁극적으로 형식의 것을 최적화합니다.ΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2 여기서 는 훈련 중 실제 레이블 …
나는 하나의 오래된 참 / 거짓 시험에서이 진술을 읽었습니다. 그라디언트 디센트를 사용하여 제곱 오차의 합계를 최소화하여 선형 회귀 문제를 해결하면 여러 지역 최적 솔루션을 얻을 수 있습니다. 솔루션 : False 내 질문은,이 질문의 어느 부분이 잘못 되었습니까? 이 진술이 왜 거짓입니까?
PCA (Principal Component Analysis)의 목적 함수는 L2 규범의 재구성 오류를 최소화하는 것입니다 ( 여기 섹션 2.12 참조) . 또 다른 관점은 투영의 분산을 최대화하려고 시도하는 것입니다. 또한 PCA의 목적 함수는 무엇입니까? ? ). 내 질문은 PCA 최적화 볼록한 것입니까? (나는 여기서 몇 가지 토론을 찾았 지만 누군가가 이력서에 대한 좋은 …
IRLS 알고리즘을 사용하여 로지스틱 회귀를 프로그래밍했습니다 . 올바른 기능을 자동으로 선택하기 위해 LASSO 처벌 을 적용하고 싶습니다 . 각 반복에서 다음이 해결됩니다. (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} 하자 음수가 아닌 실수합니다. 나는 The Elements of 에서 제안한 것처럼 요격을 처벌하지 않습니다 . 통계 학습 . 이미 0의 계수에 대한 차이. 그렇지 않으면 오른쪽에서 …