«optimization» 태그된 질문

통계 내에서 최적화를 사용하려면이 태그를 사용하십시오.

4
정도를 낮추는 대신 다항식 회귀 분석에서 정규화를 사용하는 이유는 무엇입니까?
예를 들어, 회귀를 수행 할 때 선택할 두 개의 하이퍼 매개 변수는 종종 함수의 용량 (예 : 다항식의 최대 지수)과 정규화 량입니다. 내가 혼동하는 것은 왜 저용량 기능을 선택한 다음 정규화를 무시하지 않는 것입니까? 그렇게하면 과잉 적합하지 않습니다. 정규화와 함께 고용량 기능이있는 경우 저용량 기능을 사용하고 정규화하지 않는 것과 동일하지 …

1
PCA 목적 함수 : 분산 최대화와 오류 최소화 간의 관계는 무엇입니까?
PCA 알고리즘은 상관 행렬의 관점에서 공식화 될 수 있습니다 (데이터 XXX 가 이미 정규화되었고 첫 번째 PC 로의 투영 만 고려하고 있다고 가정 ). 목적 함수는 다음과 같이 작성할 수 있습니다. maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. 이것은 괜찮습니다. 우리는 Lagrangian multipliers를 사용하여 문제를 해결합니다. maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w …
32 pca  optimization 



1
Taylor 확장을 통한 XGBoost 손실 기능 근사
예를 들어, 번째 반복 에서 XGBoost 모델의 목적 함수를 사용하십시오 .ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) 여기서 은 손실 함수이고, 는 번째 트리 출력이고 \ Omega 는 정규화입니다. 빠른 계산을위한 (다수) 주요 단계 중 하나는 근사치입니다.ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), 여기서 gigig_i 및 hihih_i 는 손실 함수의 1 차 및 2 차 미분입니다. 내가 요구하는 것은 …

1
lmer 모델의 효과 반복 계산
방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
분류에서 다른 손실 함수를 선택하면 약 0-1 손실에 미치는 영향은 무엇입니까?
우리는 일부 객관적인 기능이 최적화하기 쉽고 일부는 어렵다는 것을 알고 있습니다. 그리고 우리가 사용하고자하지만 사용하기 어려운 많은 손실 함수가 있습니다 (예 : 0-1 손실). 그래서 우리 는 작업을 수행하기 위해 프록시 손실 기능을 찾습니다 . 예를 들어 힌지 손실 또는 로지스틱 손실을 사용하여 0-1 손실을 "대략적인"수준으로 만듭니다. 다음은 Chris Bishop의 …


6
가중치가 작을수록 정규화에서 모델이 더 단순 해지는 이유는 무엇입니까?
저는 1 년 전에 Andrew Ng의 기계 학습 과정을 수료했으며 이제 로지스틱 회귀 작업과 성능 최적화 기술에 대한 고등학교 수학 탐구를 작성하고 있습니다. 물론 이러한 기술 중 하나는 정규화입니다. 정규화의 목표는 모델 단순성의 목표를 포함하도록 비용 함수를 확장하여 과적 합을 방지하는 것입니다. 우리는 비용 함수에 각 가중치를 제곱하고 정규화 매개 …

1
역 모드 자동 차별화의 단계별 예
이 질문이 여기에 속하는지 확실하지 않지만 최적화의 그라디언트 방법과 밀접한 관련이 있습니다. 어쨌든 다른 커뮤니티가 주제에 대해 더 나은 전문 지식을 가지고 있다고 생각되면 자유롭게 마이그레이션하십시오. 요컨대, 역 모드 자동 차별화 의 단계별 예제를 찾고 있습니다. 주제에 대한 많은 문헌은 없으며 기존 구현 ( TensorFlow의 것과 같은 )은 그 뒤에있는 …

1
통계, 선형 대수 및 기계 학습에서 고전적인 표기법은 무엇입니까? 그리고이 표기법들 사이의 관계는 무엇입니까?
우리가 책을 읽을 때, 표기법을 이해하는 것은 내용을 이해하는 데 매우 중요한 역할을합니다. 불행히도, 다른 커뮤니티는 모델의 공식화와 최적화 문제에 대해 다른 표기법을 가지고 있습니다. 여기에 몇 가지 공식 표기법을 요약하고 가능한 이유를 제시 할 수 있습니까? 선형 대수 문학에서 고전 서적은 Strang의 선형 대수학 소개 입니다. 이 책에서 가장 …

6
볼록한 문제의 경우 SG (Stochastic Gradient Descent)의 그래디언트가 항상 전역 극단 값을 가리 킵니까?
볼록한 비용 함수가 주어지면 최적화를 위해 SGD를 사용하여 최적화 프로세스 중에 특정 지점에서 그라디언트 (벡터)를 갖게됩니다. 내 질문은 볼록한 점을 감안할 때 그라디언트가 함수가 가장 빠르게 증가 / 감소하는 방향만을 가리 키거나 그라디언트는 항상 비용 함수의 최적 / 극한 점을 가리 킵 니까? 전자는 지역 개념이고, 후자는 글로벌 개념입니다. SGD는 …

3
Adam Optimizer가 하이퍼 매개 변수의 값에 대해 강력한 것으로 간주되는 이유는 무엇입니까?
저는 Deep Learning 의 Adam 최적화 프로그램에 대해 읽었으며 Bengio, Goodfellow 및 Courville 의 새 책 Deep Learning 에서 다음 문장 을 보았습니다. Adam은 일반적으로 학습 매개 변수를 제안 된 기본값에서 변경해야하지만 하이퍼 매개 변수를 선택하는 데 상당히 강력한 것으로 간주됩니다. 이것이 사실이라면 하이퍼 파라미터 검색은 딥 러닝 시스템의 통계 …

1
경사 하강의 종료 조건을 정의하는 방법은 무엇입니까?
실제로 그라디언트 디센트의 종료 조건을 어떻게 정의 할 수 있는지 묻고 싶었습니다. 반복 횟수, 즉 100 회 반복에 대한 매개 변수 값을 고려하여 중지 할 수 있습니까? 아니면 내가 그런 기다려야한다는 점에서 다른 두 개의 매개 변수 값 '새'와 '오래된'의 순서가 말할 수에 아주 작은 ? 시간이 많이 걸릴 것입니다.10−610−610^{-6} …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.