«gradient-descent» 태그된 질문

그라디언트 디센트는 1 차 반복 최적화 알고리즘입니다. 그래디언트 디센트를 사용하여 함수의 로컬 최소값을 찾으려면 현재 점에서 함수의 그래디언트 (또는 대략적인 그래디언트)의 음수에 비례하여 단계를 수행합니다. 확률 적 경사 하강의 경우 [sgd] 태그도 있습니다.


4
로지스틱 회귀 분석에서 비용 함수는 어떻게 도출됩니까?
Coursera에서 기계 학습 스탠포드 코스를하고 있습니다. 로지스틱 회귀에 관한 장에서 비용 함수는 다음과 같습니다. 그런 다음 여기에서 파생됩니다. 비용 함수의 미분을 얻으려고했지만 완전히 다른 것을 얻었습니다. 파생 상품은 어떻게 얻습니까? 중개 단계는 무엇입니까?


6
볼록한 문제의 경우 SG (Stochastic Gradient Descent)의 그래디언트가 항상 전역 극단 값을 가리 킵니까?
볼록한 비용 함수가 주어지면 최적화를 위해 SGD를 사용하여 최적화 프로세스 중에 특정 지점에서 그라디언트 (벡터)를 갖게됩니다. 내 질문은 볼록한 점을 감안할 때 그라디언트가 함수가 가장 빠르게 증가 / 감소하는 방향만을 가리 키거나 그라디언트는 항상 비용 함수의 최적 / 극한 점을 가리 킵 니까? 전자는 지역 개념이고, 후자는 글로벌 개념입니다. SGD는 …

1
경사 하강의 종료 조건을 정의하는 방법은 무엇입니까?
실제로 그라디언트 디센트의 종료 조건을 어떻게 정의 할 수 있는지 묻고 싶었습니다. 반복 횟수, 즉 100 회 반복에 대한 매개 변수 값을 고려하여 중지 할 수 있습니까? 아니면 내가 그런 기다려야한다는 점에서 다른 두 개의 매개 변수 값 '새'와 '오래된'의 순서가 말할 수에 아주 작은 ? 시간이 많이 걸릴 것입니다.10−610−610^{-6} …

3
좌표 대 경사 하강
Coordinate Descent 및 Gradient Descent 두 알고리즘의 다양한 사용 사례가 무엇인지 궁금합니다 . 좌표 하강은 평활하지 않은 함수에 문제가 있지만 SVM 및 LASSO와 같은 널리 사용되는 알고리즘에 사용됩니다. 그러나 그라디언트 디센트는 특히 ANN의 부활과 다른 많은 기계 학습 작업에 더 널리 사용되는 것으로 생각됩니다. 내 질문은 : 어떤 유형의 문제가 …

1
ResNet 건너 뛰기 연결을 통한 그라디언트 역 전파
ResNet 모듈 / 건너 뛰기 연결을 사용하여 그라디언트가 신경망을 통해 어떻게 전파되는지 궁금합니다. ResNet에 대한 몇 가지 질문을 보았습니다 (예 : 스킵 레이어 연결을 가진 신경망 ). 이것은 훈련 중 그라디언트의 역 전파에 대해 특별히 묻습니다. 기본 아키텍처는 다음과 같습니다. 필자는이 논문 인 이미지 인식을위한 잔차 네트워크 연구 (Research of …

3
신경망에 왜 경사 하강을 사용합니까?
역 전파 알고리즘을 사용하여 신경망을 훈련 할 때, 경사 하강 법이 가중치 업데이트를 결정하는데 사용된다. 내 질문이있다 : 오히려 천천히 일정한 무게에 대한 최소한의 포인트를 찾을 그라데이션 하강 방법을 사용하는 것보다, 왜 우리는 단지 파생 설정하지 , 그리고 오차를 최소화하는 무게 값 를 찾으 십니까?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www 또한 역 전파의 오차 함수가 …

3
커널 화 된 SVM에 Gradient Descent가 가능합니까 (그렇다면 사람들이 왜 Quadratic Programming을 사용 하는가)?
사람들이 커널 화 된 SVM을 다룰 때 왜 이차 프로그래밍 기술 (예 : SMO)을 사용합니까? 그라데이션 하강에 어떤 문제가 있습니까? 커널과 함께 사용하는 것이 불가능합니까, 아니면 너무 느립니다 (그리고 왜?). 좀 더 자세한 내용은 다음과 같습니다. SVM을 조금 더 이해하려고 노력하면서 Gradient Descent를 사용하여 다음 비용 함수를 사용하여 선형 SVM …

3
퍼셉트론 규칙에서 그라디언트 디센트까지 : S 자형 활성화 기능을 가진 퍼셉트론은 로지스틱 회귀와 어떻게 다른가?
본질적으로, 내 질문은 다층 퍼셉트론에서 퍼셉트론이 시그 모이 드 활성화 기능과 함께 사용된다는 것입니다. 업데이트 규칙에서 는 다음과 같이 계산됩니다.와이^와이^\hat{y} 와이^= 11 +특급( − w티엑스나는)와이^=11+특급⁡(−승티엑스나는)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} 이 "sigmoid"Perceptron은 로지스틱 회귀와 어떻게 다릅니 까? 단일 계층 시그 모이 드 퍼셉트론은 업데이트 규칙의또한 예측에서 을 합니다. 그러나 다층 퍼셉트론에서, S 자형 …

2
신경망에서 왜 다른 메타 휴리스틱보다 그라데이션 방법을 사용합니까?
깊고 얕은 신경망을 훈련 할 때 왜 다른 메타 휴리스틱 스와 달리 그래디언트 방법 (예 : 그래디언트 디센트, 네 스테 로프, 뉴턴-라프 슨)이 일반적으로 사용됩니까? 메타 휴리스틱 스 (metaheuristics) 란 로컬 소소한 상황에 빠지지 않도록 개발 된 시뮬레이션 어닐링, 개미 식민지 최적화 등과 같은 방법을 의미합니다.

3
유전자 알고리즘은 언제 최적화에 적합한가?
유전자 알고리즘은 최적화 방법의 한 형태입니다. 확률 적 구배 하강과 그 파생물은 함수 최적화를위한 최선의 선택이지만 종종 유전자 알고리즘이 여전히 사용됩니다. 예를 들어, NASA의 ST5 우주선의 안테나 는 유전자 알고리즘으로 만들어졌습니다. 유전자 최적화 방법이 더 일반적인 경사 하강 방법보다 더 나은 선택은 언제입니까?

3
선형 회귀를 풀 때 여러 지역 최적 솔루션이있을 수 있습니까?
나는 하나의 오래된 참 / 거짓 시험에서이 진술을 읽었습니다. 그라디언트 디센트를 사용하여 제곱 오차의 합계를 최소화하여 선형 회귀 문제를 해결하면 여러 지역 최적 솔루션을 얻을 수 있습니다. 솔루션 : False 내 질문은,이 질문의 어느 부분이 잘못 되었습니까? 이 진술이 왜 거짓입니까?


3
배치 크기는 SGD의 수렴에 어떤 영향을 줍니까?
많은 논의에서 비슷한 결론을 보았습니다. 미니 배치 크기가 커질수록 SGD의 수렴이 실제로 더 어려워지고 악화됩니다. 이 논문 과 이 답변을 . 또한 초기 단계에서 소규모 학습 속도 또는 배치 크기와 같은 트릭을 사용하여 배치 크기가 큰 문제를 해결하는 사람들에 대해 들었습니다. 그러나 미니 배치의 평균 손실이 데이터 분포에 대한 예상 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.