통계 및 빅 데이터 cross-validation

5

레이블이 지정된 데이터를 교육, 검증 및 테스트 세트로 분리 할 때 50/25/25에서 85/5/10까지 모든 것을 들었습니다. 나는 이것이 모델을 어떻게 사용할 것인지와 학습 알고리즘을 과도하게 맞추는 경향에 달려 있다고 확신합니다. 일반적으로 결정하는 방법이 있습니까? ELSII조차도 주제에 대해 모호한 것처럼 보입니다.

10 machine-learning cross-validation

1

Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?

GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

회귀 모형의 교차 검증에서 모형 안정성

로지스틱 회귀 분석의 다중 교차 검증 접힘과 각 회귀 계수의 다중 추정 결과가 제공되면 회귀 계수를 기반으로 예측 변수 (또는 예측 변수 집합)가 안정적이고 의미가 있는지 여부를 어떻게 측정해야합니까? ? 선형 회귀와는 다른가요?

10 regression model-selection cross-validation

4

R에서 변수 / 기능 선택을 수행하기 위해 교차 검증을 사용하는 방법이 있습니까?

약 70 개의 변수가있는 데이터 세트가 있습니다. 내가 찾고있는 것은 CV를 사용하여 다음과 같은 방식으로 가장 유용한 변수를 찾는 것입니다. 1) 20 개의 변수를 임의로 선택합니다. 2) stepwise/ LASSO/ lars/ etc를 사용 하여 가장 중요한 변수를 선택하십시오. 3) ~ 50x를 반복하고 어떤 변수가 가장 자주 선택 (제거되지 않음)되었는지 확인합니다. 이것은 …

10 r cross-validation feature-selection random-forest stepwise-regression

3

교차 검증에 관한 좋은 문헌

교차 검증 기술을 배우기 시작하는 좋은 책 / 웹 페이지를 아는 사람이 있습니까?

10 references cross-validation

1

R에서 교차 유효성 검사 올가미 회귀

R 함수 cv.glm (라이브러리 : boot)은 일반화 된 선형 모델에 대한 추정 된 K- 폴드 교차 검증 예측 오류를 계산하고 델타를 반환합니다. 올가미 회귀 (라이브러리 : glmnet)에이 함수를 사용하는 것이 이치에 맞습니까? 그렇다면 어떻게 수행 할 수 있습니까? glmnet 라이브러리는 교차 검증을 사용하여 최상의 회전 매개 변수를 얻지 만 최종 …

10 r regression cross-validation lasso glmnet

2

중첩 교차 검증-훈련 세트에서 kfold CV를 통한 모델 선택과 어떻게 다릅니 까?

나는 종종 사람들이 5x2 교차 유효성 검사에 대해 중첩 된 교차 유효성 검사 의 특별한 경우를 봅니다. 첫 번째 숫자 (여기서는 5)는 내부 루프의 접기 수를 나타내고 두 번째 숫자 (여기서는 2)는 외부 루프의 접기 수를 나타냅니다? 그렇다면 이것이 "전통적인"모델 선택 및 평가 방식과 어떻게 다릅니 까? "전통적인"이라는 말은 데이터 …

10 machine-learning cross-validation hyperparameter

2

중첩 교차 검증의 구현

중첩 교차 유효성 검사에 대한 이해가 올바른지 알아 내려고 노력하고 있으므로이 장난감 예제를 작성하여 내가 옳은지 확인했습니다. import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X …

10 cross-validation python scikit-learn

4

R의 이산 시간 이벤트 기록 (생존) 모델

R에 이산 시간 모델을 맞추려고하지만 어떻게 해야할지 모르겠습니다. 종속 변수를 각 시간 관찰마다 하나씩 다른 행 glm으로 구성하고 logit 또는 cloglog 링크와 함께 함수를 사용할 수 있다는 것을 읽었습니다. 이런 의미에서, 나는 세 개의 열이 있습니다 : ID, Event(각 시간 경과시 1 또는 0) 및 Time Elapsed(관측 시작부터 ) 그리고 …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

예측 오류를 테스트하기위한 GAM 교차 검증

내 질문은 mgcv R 패키지 의 GAM 을 다루고 있습니다 . 표본 크기가 작기 때문에 leave-one-out 교차 유효성 검사를 사용하여 예측 오류를 결정하고 싶습니다. 이것이 합리적입니까? 이 작업을 수행 할 수있는 패키지 또는 코드가 있습니까? ipred 패키지 의 errorest()기능 이 작동 하지 않습니다. 간단한 테스트 데이터 세트는 다음과 같습니다. library(mgcv) …

10 r cross-validation gam mgcv

1

교차 검증을 사용할 때 예측 간격 계산

표준 편차 추정치는 다음을 통해 계산됩니까? 에스엔=1엔∑엔나는 = 1(엑스나는−엑스¯¯¯)2−−−−−−−−−−−−−√.에스엔=1엔∑나는=1엔(엑스나는−엑스¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) 10 배 교차 검증에서 샘플링 된 예측 정확도에 대해? 각 폴드 사이에서 계산 된 예측 정확도는 트레이닝 세트 사이의 실질적인 오버랩 때문에 (예측 세트는 독립적이지만) 걱정됩니다. 이를 논의하는 모든 자료는 매우 …

10 confidence-interval cross-validation prediction prediction-interval

2

R에서 다변량 결과를 시뮬레이션하는 방법?

대부분의 상황에서 과 같은 하나의 결과 / 응답 변수 만 처리 합니다. 그러나 일부 시나리오, 특히 임상 데이터에서 결과 변수는 고차원 / 다변량 일 수 있습니다. 예컨대 , 포함 , 및 변수 이들 결과 모두 상관된다. 치료를 받고있는 경우 (예 / 아니오), R에서이 유형의 데이터를 어떻게 시뮬레이트 할 수 있습니까?y=a+bx+ϵy=a+bx+ϵy …

10 r cross-validation

2

순서 형 로지스틱 회귀 분석의 AUC

나는 2 종류의 로지스틱 회귀를 사용하고 있습니다. 하나는 이진 분류를위한 간단한 유형이고 다른 하나는 순서 형 로지스틱 회귀입니다. 첫 번째 정확도를 계산하기 위해 교차 검증을 사용하여 각 접기에 대해 AUC를 계산하고 평균 AUC를 계산했습니다. 순서 형 로지스틱 회귀 분석을 위해 어떻게해야합니까? 멀티 클래스 예측 변수에 대한 일반화 된 ROC에 대해 …

10 logistic cross-validation roc auc ordered-logit

1

Leave-One-Out 교차 검증을 위해 ROC 곡선을 어떻게 생성합니까?

5 배 교차 검증을 수행 할 때 (예를 들어), 5 배 각각에 대해 별도의 ROC 곡선을 계산하고 종종 std를 사용하여 평균 ROC 곡선을 곱하는 것이 일반적입니다. dev. 곡선 두께로 표시됩니다. 그러나 각 접기마다 단일 테스트 데이터 포인트 만있는 LOO 교차 유효성 검사의 경우이 단일 데이터 포인트에 대한 ROC "곡선"을 계산하는 …

10 cross-validation roc

2

RMSE와 MAE가 같은 가치를 가질 수 있습니까?

교차 유효성 검사를 구현하고 RMSE, , MAE, MSE 등과 같은 오류 메트릭을 계산 하고 있습니다.R2R2R^2 RMSE와 MAE가 같은 가치를 가질 수 있습니까?

9 cross-validation rms mae

«cross-validation» 태그된 질문