«regularization» 태그된 질문

모델 피팅 프로세스에서 추가 구속 조건 (일반적으로 복잡성에 대한 페널티) 포함. 과적 합을 방지하고 예측 정확도를 향상시키는 데 사용됩니다.

3
"규정 화"라는 용어의 기원
학생들에게 개념을 소개 할 때, 용어가 어디에서 나오는지 말하는 것이 재미 있다는 것을 알게됩니다 (예 : "회귀"는 흥미로운 기원을 가진 용어입니다). 통계 / 머신 러닝에서 "정규화"라는 용어의 이력 / 배경을 밝힐 수 없었습니다. 그렇다면 정규화 라는 용어의 기원은 무엇 입니까?

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
올가미 패널티가 이전의 이중 지수 (Laplace)에 해당하는 이유는 무엇입니까?
회귀 모수 벡터 대한 올가미 추정치 B비B가 각 B i에 대한 이전 분포 가 이중 지수 분포 (라플라스 분포라고도 함) 인 의 사후 모드와 같다는 많은 참고 문헌을 읽었습니다 .B비BBi비나는B_i 나는 이것을 증명하려고 노력했다. 누군가가 세부 사항을 살릴 수 있습니까?

6
가중치가 작을수록 정규화에서 모델이 더 단순 해지는 이유는 무엇입니까?
저는 1 년 전에 Andrew Ng의 기계 학습 과정을 수료했으며 이제 로지스틱 회귀 작업과 성능 최적화 기술에 대한 고등학교 수학 탐구를 작성하고 있습니다. 물론 이러한 기술 중 하나는 정규화입니다. 정규화의 목표는 모델 단순성의 목표를 포함하도록 비용 함수를 확장하여 과적 합을 방지하는 것입니다. 우리는 비용 함수에 각 가중치를 제곱하고 정규화 매개 …

2
“더블 올가미”를하거나 올가미를 두 번 수행 할 때의 이점은 무엇입니까?
한 번은 올가미를 두 번 사용하는 방법을 들었습니다 (이중 올가미와 같이). 여기서 S1과 같은 원래 변수 세트에서 올가미를 수행하고 S2라는 스파 스 세트를 얻은 다음 세트 S2에서 올가미를 다시 수행하여 세트 S3을 얻습니다. . 이에 대한 방법 론적 용어가 있습니까? 또한 올가미를 두 번 사용하면 어떤 이점이 있습니까?

3
올가미 식별 변수 하위 집합에서 OLS 추정치보다 올가미 추정치를 사용하는 이유는 무엇입니까?
올가미 회귀 분석 경우 최상의 솔루션 (예 : 최소 테스트 오류)이 k 개의 피처를 선택한다고 가정합니다 . 그래서 \ 모자 {\ 베타가} ^ {올가미} = \ 좌측 (\ 모자 {\ 베타 _1} ^ {올가미} \ {모자 \ 베타 _2} ^ {올가미} ... \ 모자 {\ 베타} _k ^ {lasso}, 0, …

5
주요 주성분은 어떻게 종속 변수에 대한 예측력을 유지할 수 있습니까 (또는 더 나은 예측으로 이어질 수 있습니까)?
회귀 실행한다고 가정하십시오 . 성분을 선택하여 왜 모델이 에 대한 예측력을 유지 합니까?k X YY∼XY∼XY \sim XkkkXXXYYY 차원 축소 / 기능 선택 관점에서 가 상위 고유 값을 가진 의 공분산 행렬의 고유 벡터 이면 는 상위 주요 구성 요소입니다 최대 분산으로. 따라서 우리는 의 피처 수를 줄이고 예측력의 대부분을 이해할 …

2
PCA와 LDA를 결합하는 것이 합리적입니까?
예를 들어 Bayes 분류기를 통해 감독 된 통계 분류 작업에 대한 데이터 집합이 있다고 가정합니다. 이 데이터 세트는 20 개의 피쳐로 구성되며 PCA (Principal Component Analysis) 및 / 또는 LDA (Linear Discriminant Analysis)와 같은 차원 축소 기법을 통해 2 가지 피쳐로 요약하려고합니다. 두 기술 모두 데이터를 더 작은 피쳐 하위 …

3
회귀 분석에서 능선 정규화 해석
최소 제곱 컨텍스트에서 능선 벌금에 관한 몇 가지 질문이 있습니다. βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)이 식은 X의 공분산 행렬이 대각 행렬로 축소되었음을 나타냅니다. 즉, 변수가 절차 전에 표준화되었다고 가정하면 입력 변수 간의 상관 관계가 낮아집니다. 이 해석이 맞습니까? 2) 수축 적용 인 경우 정규화를 통해 람다를 어떻게 든 …


2
탄성 순 회귀 분석에서 람다에 대해 람다가 "최소한의 표준 오차 내에서"λ를 권장하는 이유는 무엇입니까?
탄력적 그물 회귀에서 람다의 역할을 이해합니다. 교차 검증 된 오류를 최소화하는 람다의 값 인 lambda.min을 선택하는 이유를 이해할 수 있습니다. 내 질문은 통계 문헌에서 lambda.1se를 사용하는 것이 좋습니다. 즉, CV 오류와 하나의 표준 오류를 최소화하는 lambda의 값 입니까? 나는 공식적인 인용이나 심지어 이것이 종종 가치가있는 이유를 찾지 못하는 것 같습니다. …

1
브리지 페널티 vs. Elastic Net 정규화
LASSO ( ) 및 Ridge ( )와 같은 일부 페널티 함수 및 근사값은 잘 연구 되었으며 회귀 분석에서 이러한 점을 비교하는 방법에 대해 살펴 봅니다.엘1L1L_1엘2L2L_2 브리지 페널티에 대해 읽었습니다. 이는 일반 페널티입니다. 이것을 \ gamma = 1 인 LASSO 와 \ gamma = 2 인 Ridge와 비교 하여 특별한 경우를 …

2
Laplace가 왜 스파 스 솔루션을 생성합니까?
나는 정규화에 관한 문헌을 살펴 보았고 L2 규제를 가우시안과 연결하고 L1을 0으로 중심으로 한 L1을 연결하는 단락을 종종 볼 수 있습니다. 나는 이러한 이전의 모습을 알고 있지만 선형 모델의 가중치와 같이 어떻게 해석되는지 이해하지 못합니다. L1에서, 내가 올바르게 이해한다면, 우리는 희소 한 솔루션, 즉 일부 가중치가 정확히 0으로 푸시 될 …

2
“환율 감소 회귀”란 무엇입니까?
통계 학습의 요소를 읽었으며 3.7 "여러 결과 축소 및 선택"섹션이 무엇인지 이해할 수 없었습니다. 그것은 RRR (환원 순위 회귀)에 대해 이야기하며, 전제는 계수가 알려지지 않았고 (추정되어야하지만) 전체 순위를 갖지 않는 것으로 알려진 일반 다변량 선형 모델에 대해서만 이해할 수 있습니다. 그것이 내가 이해하는 유일한 것입니다. 나머지 수학은 저 너머에 있습니다. …

3
Lars와 Glmnet은 왜 Lasso 문제에 대해 다른 솔루션을 제공합니까?
R 패키지 Lars와 GlmnetLasso 문제를 해결하는 데 사용되는 R 패키지를 더 잘 이해하고 싶습니다 . ( 변수 및 샘플의 경우, 참조 www.stanford.edu/~hastie/Papers/glmnet.pdf를 ) 3 페이지pN해요 난 N( β0β) ∈ Rp + 1[ 12 N∑나는 = 1엔( y나는− β0− x티나는β)2+ λ | | β| |엘1]엠나는엔(β0β)∈아르 자형피+1[12엔∑나는=1엔(와이나는−β0−엑스나는티β)2+λ||β||엘1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.