«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

4
Leave-one-Out 교차 검증에 대한 Shao의 결과는 언제 적용됩니까?
Jun Shao는 그의 논문 인 Cross-Validation에 의한 Linear Model Selection 에서 다변량 선형 회귀 분석에서 변수 선택 문제에 대해 LOOCV (Leave-One-Out Cross Validation) 방법이 '무증상 일관성이 없음'을 보여줍니다. 일반 영어에서는 변수가 너무 많은 모델을 선택하는 경향이 있습니다. 시뮬레이션 연구에서 Shao는 40 개의 관측치조차도 LOOCV가 다른 교차 검증 기술보다 성능이 떨어질 …

5
과적 합 :은 총알이 없습니까?
올바른 교차 검증 및 모델 선택 절차를 따를 때에도 모델 복잡성, 기간에 제한을 두지 않는 한 모델을 충분히 검색 하지 않으면 과적 합 이 발생 한다는 것을 이해 합니다. 더욱이 사람들은 종종 그들이 제공 할 수있는 보호를 약화시키는 데이터로부터 모델 복잡성에 대한 처벌을 배우려고 시도합니다. 내 질문은 : 위의 진술에 …

2
모델 선택 후 교차 검증 (오류 일반화)
참고 : 사례는 n >> p입니다. 통계 학습의 요소를 읽고 있으며 교차 검증을 수행하는 "올바른"방법에 대한 다양한 언급이 있습니다 (예 : 60 페이지, 245 페이지). 특히, 내 질문은 모델 검색이있을 때 k- 폴드 CV 또는 부트 스트랩을 사용하여 (별도의 테스트 세트없이) 최종 모델을 평가하는 방법입니다. 대부분의 경우 (내장 기능 선택이없는 …

3
k- 폴드 교차 검증을 사용할 때 테스트 세트가 필요합니까?
k- 폴드 유효성 검사에 대해 읽었으며 작동 방식을 이해하고 싶습니다. 홀드 아웃 방법의 경우 데이터가 세 세트로 분할되며 테스트 세트는 모델 성능을 평가하기 위해 맨 마지막에만 사용되는 반면 검증 세트는 하이퍼 파라미터 등을 조정하는 데 사용됩니다. k-fold 방법에서, 우리는 여전히 최종 테스트 세트를 유지하고 훈련 및 하이퍼 파라미터 튜닝을 위해 …

1
미시적 또는 거시적 평가 방법에 따라 결정해야합니까?
동일한 데이터 세트로 다른 이진 분류 알고리즘에서 10 배 교차 검증을 실행했으며 마이크로 및 매크로 평균 결과를 모두 받았습니다. 이것이 다중 레이블 분류 문제라는 점을 언급해야합니다. 필자의 경우, 참 부정과 참 긍정적 가중치는 동일하게 가중됩니다. 즉, 참 긍정을 정확하게 예측하는 것이 참 긍정을 정확하게 예측하는 것과 마찬가지로 중요합니다. 미세 평균 …

4
교차 검증 외부에서 하이퍼 파라미터 튜닝이 얼마나 나쁩니 까?
크로스 밸리데이션 외부에서 하이퍼 파라미터 튜닝을 수행하면 성능을 측정하는 데 사용하는 데이터 세트가 기능을 튜닝하는 데 사용한 것과 동일하므로 바이어스 유효성이 높은 외부 유효성 추정치가 발생할 수 있습니다. 내가 궁금한 것은 이것이 얼마나 나쁜 문제인지 입니다. 튜닝 할 매개 변수가 매우 많기 때문에 기능 선택이 실제로 얼마나 나쁜지 이해할 수 …

2
다중 레이블 분류기에서 scikit-learn의 교차 검증 기능을 사용하는 방법
5 개의 클래스가 있고 각 인스턴스가 하나 이상의 클래스에 속할 수있는 데이터 세트에서 다른 분류자를 테스트하고 있으므로 특히 scikit-learn의 다중 레이블 분류기를 사용하고 있습니다 sklearn.multiclass.OneVsRestClassifier. 이제를 사용하여 교차 유효성 검사를 수행하고 싶습니다 sklearn.cross_validation.StratifiedKFold. 다음과 같은 오류가 발생합니다. Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File …

1
libsvm“최대 반복 횟수에 도달”경고 및 교차 유효성 검사
C-SVC 모드에서 2 차 다항식 커널로 libsvm을 사용하고 있으며 여러 SVM을 훈련시켜야합니다. 각 트레이닝 세트에는 10 개의 기능과 5000 개의 벡터가 있습니다. 훈련하는 동안 훈련하는 대부분의 SVM에 대해이 경고가 표시됩니다. WARNING: reaching max number of iterations optimization finished, #iter = 10000000 누군가이 경고가 의미하는 바를 설명하고 어떻게 피할 수 있습니까? …

2
하이퍼 파라미터 추정을위한 교차 검증 대 경험적 베이
계층 적 모델 주어지면 모델 에 맞는 2 단계 프로세스가 필요합니다. 먼저 소수의 하이퍼 파라미터 수정 한 다음 나머지 매개 변수 에 대한 베이지안 추론을 수행하십시오 . 하이퍼 파라미터를 고정시키기 위해 두 가지 옵션을 고려하고 있습니다.θ ϕp ( x | ϕ , θ )p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi 경험적 베이 (EB)를 사용 하고 한계 …


4
엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?
정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
과적 합에 대한 베이지안 생각
전통적인 잦은 통계 영역에서 예측 모델을 검증하기위한 방법 및 소프트웨어 개발에 많은 시간을 투자했습니다 . 더 많은 베이지안 아이디어를 실천하고 가르치면서 나는 수용해야 할 몇 가지 중요한 차이점을 봅니다. 먼저, 베이지안 예측 모델링은 분석가에게 후보 기능에 맞게 사용자 정의 할 수있는 이전 분포에 대해 열심히 생각하도록 요구하며, 이러한 사전은 모델을 …

2
캐럿 학습 기능은 알파 및 람다 모두에 대해 glmnet 교차 검증 기능을 수행합니까?
R caret패키지 가 모델 alpha과 모델 모두 에 lambda대해 교차 검증 glmnet됩니까? 이 코드를 실행하면 eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = …

1
앙상블 학습의 k- 폴드 교차 검증
앙상블 학습의 k- 폴드 교차 검증을 위해 데이터를 분할하는 방법에 대해 혼란스러워합니다. 분류를위한 앙상블 학습 프레임 워크가 있다고 가정합니다. 첫 번째 계층에는 분류 모델 (예 : svm, 의사 결정 트리)이 있습니다. 두 번째 레이어에는 첫 번째 레이어의 예측을 결합하고 최종 예측을 제공하는 투표 모델이 포함되어 있습니다. 5 배 교차 검증을 …

1
분류에서 훈련 데이터를 생성하기위한 계층화 및 무작위 샘플링의 이점
원래 데이터 세트를 분류를위한 훈련 및 테스트 세트로 분할 할 때 무작위 샘플링 대신 계층화 샘플링을 사용하면 어떤 이점이 있는지 알고 싶습니다. 또한 계층화 된 샘플링이 무작위 샘플링보다 분류기에 더 많은 편향을 가져 옵니까? 데이터 준비를 위해 계층화 된 샘플링을 사용하려는 응용 프로그램은 2에 대해 훈련 된 Random Forests 분류기입니다.2삼2삼\frac{2}{3}원래 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.