«gradient-descent» 태그된 질문

그라디언트 디센트는 1 차 반복 최적화 알고리즘입니다. 그래디언트 디센트를 사용하여 함수의 로컬 최소값을 찾으려면 현재 점에서 함수의 그래디언트 (또는 대략적인 그래디언트)의 음수에 비례하여 단계를 수행합니다. 확률 적 경사 하강의 경우 [sgd] 태그도 있습니다.

2
그라디언트 디센트는이 데이터 세트에서 보통 최소 제곱에 대한 솔루션을 찾지 못합니까?
나는 선형 회귀를 연구하고 아래 세트 {(x, y)}에서 시도했습니다. 여기서 x는 평방 피트 단위의 주택 면적을 지정하고 y는 가격을 달러 단위로 지정했습니다. Andrew Ng Notes 의 첫 번째 예입니다 . 2104,400 1600,330 2400,369 1416,232 3000,540 샘플 코드를 개발했지만 실행할 때 각 단계마다 비용이 증가하는 반면 각 단계마다 비용이 감소합니다. 아래에 …

2
미니 배치 그라디언트 디센트는 배치에서 각 예제의 가중치를 어떻게 업데이트합니까?
일괄 처리로 10 개의 예를 처리하는 경우 각 예의 손실을 합산 할 수 있지만 각 예의 가중치 업데이트와 관련하여 역전 파는 어떻게 작동합니까? 예를 들면 다음과 같습니다. 예 1-> 손실 = 2 예 2-> 손실 = -2 결과적으로 평균 손실은 0 (E = 0)이되므로 각 가중치와 수렴을 어떻게 업데이트합니까? 우리가 …


2
잔류 네트워크는 그라디언트 부스팅과 관련이 있습니까?
최근에, 우리는 Residual Neural Net의 출현을 보았습니다. 여기서 각 레이어는 계산 모듈 와 i 번째 레이어의 출력과 같이 레이어에 대한 입력을 유지하는 바로 가기 연결 로 구성됩니다 . 네트워크는 잔존 피처를 추출 할 수 있으며 깊이가 더 깊어지면서 배니싱 그라디언트 문제에 대해보다 강력한 성능을 제공하여 최첨단 성능을 달성합니다.y i + …

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
역 전파를 통해 SVM을 훈련시키는 방법?
역 전파를 사용하여 SVM을 훈련시킬 수 있는지 (예를 들어 선형적인 것을 만들 수 있는지) 궁금합니다. 현재 분류기의 출력 을 f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) 따라서 "역방향 패스"(전파 된 오류)를 계산하려고하면 보낸 유도체 는 ∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0 \begin{align} \frac{\partial E}{\partial \mathbf{x}} &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial f(\mathbf{x};\theta,b)}{\mathbf{x}} \\ &= \frac{\partial …

4
수치 최적화 기술로 Gradient descent vs Monte Carlo를 사용하는 경우
일련의 방정식을 분석적으로 해결할 수 없으면 그래디언트 디센트 알고리즘을 사용할 수 있습니다. 그러나 분석 솔루션이없는 문제를 해결하는 데 사용할 수있는 Monte Carlo 시뮬레이션 방법도 있습니다. 그라디언트 디센트 사용시기와 몬테 카를로 사용시기를 어떻게 알 수 있습니까? 아니면 '시뮬레이션'이라는 용어를 '최적화'와 혼동하고 있습니까? 대단히 감사합니다!

1
P (X)의 비 -iid 샘플 및 P (Y | X)의 iid 샘플로부터 확률 구배 하강을 통해 P (Y | X) 모델을 학습 할 수 있습니까?
일부 데이터 세트에서 확률 적 그라디언트 디센트 (stochastic gradient descent)를 통해 파라미터 화 된 모델을 훈련 할 때 (예를 들어 가능성을 최대화하기 위해), 훈련 샘플은 훈련 데이터 분포로부터 iid로 추출되는 것으로 일반적으로 가정된다. 따라서 공동 분포 를 모델링하는 것이 목표 라면 각 분포에서 각 학습 표본 을 추출해야합니다.( x i …

4
그라데이션 하강 최적화
ML (machine learning) 알고리즘의 기울기 하강 최적화를 이해하려고합니다. 오류 를 최소화하는 것이 목적인 비용 함수가 있음을 이해합니다 . 가중치는 시나리오 최소 오차를 제공하도록 최적화되고 있으며, 편미분이 사용되고 있으며,이 모두 변경 않는다 및 단지 소수의 반복에서, 각 단계에서 또는 그 조합 (예이다 변경되고 경우 더욱, 미분 시작하는 오류를 감소되지 )? 응용 …

2
그래디언트 디센트에서 고정 스텝 크기를 사용할 때 왜 스텝이 작아 지는가?
고정 단계 크기 사용하여 2 차 함수 최소화하면서 기울기 정도에 대한 장난감 예제를 수행한다고 가정합니다 . ( )엑스티XxTAxx^TAxα = 0.03α=0.03\alpha=0.03A = [ 10 , 2 ; 2 , 3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 각 반복에서 의 트레이스를 플로팅하면 다음 그림이 나타납니다. 고정 스텝 크기를 사용할 때 왜 포인트가 "조밀하게"표시 됩니까? …


1
그라디언트 하강과 같이 그라디언트 향상은 어떻습니까?
그라디언트 부스팅 ( https://en.wikipedia.org/wiki/Gradient_boosting ) 에 대한 유용한 Wikipedia 항목을 읽고 있으며 가장 가파른 하강 단계 (의사 그라디언트라고도 함)로 잔차를 근사화하는 방법 / 이유를 이해하려고합니다. ). 가장 가파른 강하가 잔존물과 어떻게 연결 / 유사하는지에 대해 누구나 직감을 줄 수 있습니까? 대단히 감사합니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.