«gradient-descent» 태그된 질문

그라디언트 디센트는 1 차 반복 최적화 알고리즘입니다. 그래디언트 디센트를 사용하여 함수의 로컬 최소값을 찾으려면 현재 점에서 함수의 그래디언트 (또는 대략적인 그래디언트)의 음수에 비례하여 단계를 수행합니다. 확률 적 경사 하강의 경우 [sgd] 태그도 있습니다.

5
k- 평균이 왜 세계 최소값을 제공하지 않습니까?
k- 평균 알고리즘은 전역 최소값이 아닌 로컬 최소값으로 만 수렴된다는 것을 읽었습니다. 왜 이런거야? 논리적으로 초기화가 최종 클러스터링에 영향을 줄 수있는 방법을 생각할 수 있으며 하위 최적 클러스터링의 가능성이 있지만 수학적으로 증명할 수있는 것은 찾지 못했습니다. 또한 k- 평균은 왜 반복 과정입니까? 목적 함수 wrt를 중심과 부분적으로 구별 할 수없고,이 …


3
온라인 학습과 배치 학습의 차이점은 무엇입니까?
현재 John Duchi와 Yoram Singer의 Forward-Backward Splitting 을 사용한 Efficient Online and Batch Learning 논문을 읽었습니다 . '온라인'과 '배치'라는 용어의 사용법에 대해 매우 혼란스러워합니다. '온라인'은 훈련 데이터의 한 단위를 처리 한 후 가중치 매개 변수를 업데이트하는 것을 의미한다고 생각했습니다. 그런 다음 새로운 가중치 매개 변수를 사용하여 다음 훈련 데이터 단위를 …

1
확률 적 경사 하강은 어떻게 표준 경사 하강에 비해 시간을 절약 할 수 있습니까?
표준 그라디언트 디센트는 전체 교육 데이터 세트에 대한 그라디언트를 계산합니다. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 사전 정의 된 에포크 수에 대해 먼저 매개 변수 벡터 매개 변수를 사용하여 전체 데이터 세트에 대한 손실 함수의 기울기 벡터 weights_grad를 계산합니다. 대조적으로 …

1
Perceptron Rule vs. Gradient Descent vs Stochastic Gradient Descent 구현에 대한 설명
다른 Perceptron 구현을 약간 실험 해보고 "반복"을 올바르게 이해하고 있는지 확인하고 싶습니다. 로젠 블랏의 원래 퍼셉트론 규칙 내가 아는 한 Rosenblatt의 고전적인 퍼셉트론 알고리즘에서 가중치는 모든 훈련 예제를 통해 동시에 업데이트됩니다. Δ의 w( t + 1 )= Δ w( t )+ η( t a r ge t − a c …

1
(미니) 배치 그라디언트 괜찮은 그라디언트의 합 또는 평균?
미니 배치 그라디언트 괜찮은 것을 구현했을 때 훈련 배치의 모든 예제의 그라디언트를 평균화했습니다. 그러나, 이제는 최적의 학습 속도가 온라인 그래디언트보다 훨씬 높다는 것을 알았습니다. 내 직감은 평균 그라디언트가 덜 시끄럽기 때문에 더 빨리 따라갈 수 있기 때문입니다. 따라서 배치의 그라디언트를 요약하는 것만으로도 의미가 있습니다. 어쨌든 값은 양수와 음수 일 수 …

1
CNN이 사라지는 그라디언트 문제를 피하는 방법
나는 convoloutional 신경 네트워크에 대해 많은 것을 읽었으며 그들이 사라지는 기울기 문제를 어떻게 피하는지 궁금해하고있었습니다. 나는 딥 신념 네트워크가 단일 레벨 자동 인코더 또는 다른 사전 훈련 된 얕은 네트워크를 쌓아서이 문제를 피할 수 있다는 것을 알고 있지만 CNN에서 어떻게 피할 수 있는지 모르겠습니다. Wikipedia 에 따르면 : "위에서 언급 …

1
왜 우리는 신경망 이외의 것들에 알맞은 기울기가 아닌 일정한 학습 속도를 사용하지 않습니까?
딥 러닝 문학은 기울기 강하에서 일정하지 않은 학습 속도를 사용하는 영리한 속임수로 가득합니다. 지수 붕괴, RMSprop, Adagrad 등은 구현하기 쉽고 모든 딥 러닝 패키지에서 사용할 수 있지만 신경망 외부에는 존재하지 않는 것 같습니다. 이것에 대한 이유가 있습니까? 사람들이 단순히 신경 쓰지 않는다면 신경망 외부에서 신경 쓰지 않아도되는 이유가 있습니까?

4
안장에 어떻게 갇힐 수 있습니까?
나는 현재 미니 배치 그라디언트 디센트가 안장 점에 갇히는 방법에 약간 당황합니다. 해결책은 너무 사소한 것일 수도 있습니다. 사용자는 각 에포크 새로운 샘플을 얻고, 비용 함수는 각 배치에 대한 정적 인 그래서, 새로운 배치에 기초하여 새로운 에러를 산출하는 기울기는 각 미니 일괄 변하지 .. 이에 따라한다는 것을 의미 이 해야 …

1
맥락 적 산적을위한 비용 함수
문맥 적 문제 를 해결하기 위해 vowpal Wabbit 을 사용 하고 있습니다 . 사용자에게 광고를 게재하고 있으며 광고가 게재되는 상황 (예 : 사용자가 누구인지, 어떤 사이트에 있는지 등)에 대한 정보가 상당히 있습니다. 이것은 John Langford에 의해 설명 된 것처럼 매우 고전적인 맥락 적 산적 문제인 것 같습니다 . 내 상황에서 …

2
R의 그라데이션 하강 vs lm () 함수?
Andrewford의 무료 온라인 기계 학습 과정 (Stanford) 의 비디오를 살펴 보겠습니다 . 그는 옥타브에서 선형 회귀 및 쓰기 함수를 해결하는 알고리즘으로 Gradient Descent를 설명합니다. 아마도 R에서 해당 함수를 다시 작성할 수 있지만 내 질문은 lm () 함수가 이미 선형 회귀 출력을 제공하지 않는 것입니까? 왜 그래디언트 디센트 함수를 작성하고 싶습니까? …

5
큰 데이터 세트에 대해 경사 하강이 왜 비효율적인가?
데이터 세트에 백만 개의 예 ( )가 포함되어 있으며, 그래디언트 디센트를 사용하여 이러한 데이터 세트에 대해 로지스틱 또는 선형 회귀를 수행하려고합니다.x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} 그라디언트 디센트 방법으로 비효율적 인 것은 무엇입니까? 시간 에서의 경사 하강 단계 는 다음에 의해 주어진다는 것을 상기 하자.ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + \eta_t \nabla f(x) 여기서 …

1
왜 "새들 프리 뉴턴"하강 알고리즘이 실제로 사용되지 않습니까?
최근에 나는 Yann Dauphin 등의 논문을 읽었습니다. 고차원 비 볼록 최적화에서 새들 포인트 문제를 식별하고 공격합니다 . 여기서 새들 프리 뉴턴 (Saddle-Free Newton) 이라는 흥미로운 하강 알고리즘을 도입합니다. 신경 알고리즘 은 뉴럴 네트워크 최적화에 적합하게 맞춰져 있고 안장 포인트에 걸리지 않아야합니다. 바닐라 SGD와 같은 1 차 방법과 유사합니다. 이 논문은 …

2
Poisson, Gamma 또는 Tweedie 분포를 오류 분포의 패밀리로 사용하여 Python / scikit-learn에서 GLM을 평가할 수 있습니까?
Python과 Sklearn을 배우려고하지만 Poisson, Gamma 및 특히 Tweedie 제품군의 오류 분포를 사용하는 회귀를 실행해야합니다. 나는 그것들에 관한 문서에서 아무것도 보지 못했지만 R 배포판의 여러 부분에 있기 때문에 누군가 파이썬의 구현을 보았는지 궁금합니다. Tweedie 배포판의 SGD 구현으로 나를 가리킬 수 있다면 매우 시원 할 것입니다!

1
확률 적 경사 하강 (SGD)에 적합한 미니 배치 크기 선택
확률 적 경사 하강을 수행 할 때 미니 배치 크기 선택을 검토하는 문헌이 있습니까? 내 경험상, 그것은 일반적으로 교차 검증 또는 다양한 경험 규칙을 통해 발견되는 경험적 선택 인 것 같습니다. 유효성 검사 오류가 감소함에 따라 미니 배치 크기를 천천히 늘리는 것이 좋습니까? 이것이 일반화 오류에 어떤 영향을 미칩니 까? …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.