«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

5
기차, 검증 및 테스트 비율을 어떻게 결정합니까?
레이블이 지정된 데이터를 교육, 검증 및 테스트 세트로 분리 할 때 50/25/25에서 85/5/10까지 모든 것을 들었습니다. 나는 이것이 모델을 어떻게 사용할 것인지와 학습 알고리즘을 과도하게 맞추는 경향에 달려 있다고 확신합니다. 일반적으로 결정하는 방법이 있습니까? ELSII조차도 주제에 대해 모호한 것처럼 보입니다.

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


4
R에서 변수 / 기능 선택을 수행하기 위해 교차 검증을 사용하는 방법이 있습니까?
약 70 개의 변수가있는 데이터 세트가 있습니다. 내가 찾고있는 것은 CV를 사용하여 다음과 같은 방식으로 가장 유용한 변수를 찾는 것입니다. 1) 20 개의 변수를 임의로 선택합니다. 2) stepwise/ LASSO/ lars/ etc를 사용 하여 가장 중요한 변수를 선택하십시오. 3) ~ 50x를 반복하고 어떤 변수가 가장 자주 선택 (제거되지 않음)되었는지 확인합니다. 이것은 …


1
R에서 교차 유효성 검사 올가미 회귀
R 함수 cv.glm (라이브러리 : boot)은 일반화 된 선형 모델에 대한 추정 된 K- 폴드 교차 검증 예측 오류를 계산하고 델타를 반환합니다. 올가미 회귀 (라이브러리 : glmnet)에이 함수를 사용하는 것이 이치에 맞습니까? 그렇다면 어떻게 수행 할 수 있습니까? glmnet 라이브러리는 교차 검증을 사용하여 최상의 회전 매개 변수를 얻지 만 최종 …

2
중첩 교차 검증-훈련 세트에서 kfold CV를 통한 모델 선택과 어떻게 다릅니 까?
나는 종종 사람들이 5x2 교차 유효성 검사에 대해 중첩 된 교차 유효성 검사 의 특별한 경우를 봅니다. 첫 번째 숫자 (여기서는 5)는 내부 루프의 접기 수를 나타내고 두 번째 숫자 (여기서는 2)는 외부 루프의 접기 수를 나타냅니다? 그렇다면 이것이 "전통적인"모델 선택 및 평가 방식과 어떻게 다릅니 까? "전통적인"이라는 말은 데이터 …

2
중첩 교차 검증의 구현
중첩 교차 유효성 검사에 대한 이해가 올바른지 알아 내려고 노력하고 있으므로이 장난감 예제를 작성하여 내가 옳은지 확인했습니다. import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X …

4
R의 이산 시간 이벤트 기록 (생존) 모델
R에 이산 시간 모델을 맞추려고하지만 어떻게 해야할지 모르겠습니다. 종속 변수를 각 시간 관찰마다 하나씩 다른 행 glm으로 구성하고 logit 또는 cloglog 링크와 함께 함수를 사용할 수 있다는 것을 읽었습니다. 이런 의미에서, 나는 세 개의 열이 있습니다 : ID, Event(각 시간 경과시 1 또는 0) 및 Time Elapsed(관측 시작부터 ) 그리고 …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
예측 오류를 테스트하기위한 GAM 교차 검증
내 질문은 mgcv R 패키지 의 GAM 을 다루고 있습니다 . 표본 크기가 작기 때문에 leave-one-out 교차 유효성 검사를 사용하여 예측 오류를 결정하고 싶습니다. 이것이 합리적입니까? 이 작업을 수행 할 수있는 패키지 또는 코드가 있습니까? ipred 패키지 의 errorest()기능 이 작동 하지 않습니다. 간단한 테스트 데이터 세트는 다음과 같습니다. library(mgcv) …
10 r  cross-validation  gam  mgcv 

1
교차 검증을 사용할 때 예측 간격 계산
표준 편차 추정치는 다음을 통해 계산됩니까? 에스엔=1엔∑엔나는 = 1(엑스나는−엑스¯¯¯)2−−−−−−−−−−−−−√.에스엔=1엔∑나는=1엔(엑스나는−엑스¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) 10 배 교차 검증에서 샘플링 된 예측 정확도에 대해? 각 폴드 사이에서 계산 된 예측 정확도는 트레이닝 세트 사이의 실질적인 오버랩 때문에 (예측 세트는 독립적이지만) 걱정됩니다. 이를 논의하는 모든 자료는 매우 …

2
R에서 다변량 결과를 시뮬레이션하는 방법?
대부분의 상황에서 과 같은 하나의 결과 / 응답 변수 만 처리 합니다. 그러나 일부 시나리오, 특히 임상 데이터에서 결과 변수는 고차원 / 다변량 일 수 있습니다. 예컨대 , 포함 , 및 변수 이들 결과 모두 상관된다. 치료를 받고있는 경우 (예 / 아니오), R에서이 유형의 데이터를 어떻게 시뮬레이트 할 수 있습니까?y=a+bx+ϵy=a+bx+ϵy …

2
순서 형 로지스틱 회귀 분석의 AUC
나는 2 종류의 로지스틱 회귀를 사용하고 있습니다. 하나는 이진 분류를위한 간단한 유형이고 다른 하나는 순서 형 로지스틱 회귀입니다. 첫 번째 정확도를 계산하기 위해 교차 검증을 사용하여 각 접기에 대해 AUC를 계산하고 평균 AUC를 계산했습니다. 순서 형 로지스틱 회귀 분석을 위해 어떻게해야합니까? 멀티 클래스 예측 변수에 대한 일반화 된 ROC에 대해 …

1
Leave-One-Out 교차 검증을 위해 ROC 곡선을 어떻게 생성합니까?
5 배 교차 검증을 수행 할 때 (예를 들어), 5 배 각각에 대해 별도의 ROC 곡선을 계산하고 종종 std를 사용하여 평균 ROC 곡선을 곱하는 것이 일반적입니다. dev. 곡선 두께로 표시됩니다. 그러나 각 접기마다 단일 테스트 데이터 포인트 만있는 LOO 교차 유효성 검사의 경우이 단일 데이터 포인트에 대한 ROC "곡선"을 계산하는 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.