«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

5
CV / Bootstrap을 사용하여 기계 학습 알고리즘을 훈련하여 과적 합할 수 있습니까?
이 질문은 결정적인 대답을 얻기에는 너무 개방적 일 수 있지만, 그렇지 않을 수 있습니다. SVM, GBM, 랜덤 포레스트 등과 같은 머신 러닝 알고리즘은 일반적으로 일부 경험 법칙을 넘어서 각 데이터 세트에 맞게 조정해야하는 자유 매개 변수를 갖습니다. 이것은 일반적으로 최상의 일반화 오류를 제공하는 매개 변수 세트에 맞추기 위해 일종의 리샘플링 …


1
교차 검증 오용 (최고 하이퍼 파라미터 값에 대한 성능보고)
최근 에는 특정 데이터 세트에서 k-NN 분류기를 사용하도록 제안하는 논문을 보았습니다 . 저자는 사용 가능한 모든 데이터 샘플을 사용하여 서로 다른 k 값 에 대해 k- 폴드 교차 검증을 수행 하고 최상의 하이퍼 파라미터 구성의 교차 검증 결과를보고했습니다. 내 지식으로는이 결과는 편향되어 있으며 하이퍼 파라미터 최적화를 수행하는 데 사용되지 않은 …

1
교차 검증 포아송 모델에 대한 오류 메트릭
카운트를 예측하려는 모델을 교차 검증하고 있습니다. 이진 분류 문제인 경우 접기 AUC를 계산하고이 문제가 회귀 문제인 경우 접기 RMSE 또는 MAE를 계산합니다. 포아송 모델의 경우 표본 외 예측의 "정확도"를 평가하기 위해 어떤 오류 메트릭을 사용할 수 있습니까? 예측이 실제 값을 얼마나 잘 정렬하는지 보여주는 AUC의 포아송 확장이 있습니까? 카운트에 대한 …

3
K-fold vs. Monte Carlo 교차 검증
감독되는 다변량 분석 기법에 주로 적용하려는 다양한 교차 검증 방법을 배우려고합니다. 제가 접한 두 가지는 K-fold와 Monte Carlo 교차 검증 기술입니다. 나는 K-fold가 Monte Carlo의 변형이라는 것을 읽었지만 Monte Carlo의 정의를 구성하는 것이 무엇인지 완전히 이해하지 못했습니다. 누군가이 두 가지 방법의 차이점을 설명해 주시겠습니까?

2
계층화 된 교차 검증을 사용하는 이유는 무엇입니까? 이것이 왜 분산 관련 혜택을 손상시키지 않습니까?
응답 클래스의 균형이 맞지 않을 때 특히 계층화 된 교차 유효성 검사를 사용하는 것이 좋습니다. 교차 검증의 한 가지 목적이 원래의 훈련 데이터 샘플의 무작위성을 설명하는 데 도움이되는 경우, 원래 훈련 세트에 대표 클래스 분포가 있는지 확실하지 않은 한 각 배에 동일한 클래스 분포를 갖는 것은 이것에 대해 작동하는 것입니다. …

1
lmer 모델의 효과 반복 계산
방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
교육, 검증 및 테스트를 포함한 교차 검증. 왜 우리는 세 개의 부분 집합이 필요합니까?
교차 유효성 검사 프로세스에 대한 질문이 있습니다. 저는 Cursera에서 기계 학습 과정을 진행 중입니다. 주제 중 하나는 교차 검증에 관한 것입니다. 따라하기가 약간 어렵다는 것을 알았습니다. 미래의 (알 수없는) 데이터에서 모델이 잘 작동하고 CV가 과적 합을 방지하기 때문에 CV가 필요한 이유를 알고 있습니다. 그러나 프로세스 자체는 혼란 스럽습니다. 내가 이해 …

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
교차 유효성 검사가 유효성 검사 세트를 대신 할 수 있습니까?
텍스트 분류에는 약 800 샘플로 훈련 세트와 약 150 샘플로 시험 세트가 있습니다. 테스트 세트는 사용 된 적이 없으며 끝날 때까지 사용 대기 중입니다. 분류기 및 기능을 조정하고 조정하는 동안 10 배 교차 검증과 함께 800 샘플 교육 세트를 사용하고 있습니다. 이것은 별도의 유효성 검사 세트가 없지만 각각 10 배가 …

4
훈련 단계와 평가 단계 사이에 왜 비대칭 성이 있습니까?
기계 학습은 훈련 단계와 평가 단계의 두 단계로 진행되어야하며 서로 다른 데이터를 사용해야한다는 것이 특히 자연 언어 처리에서 잘 알려져 있습니다. 왜 이런거야? 직관적 으로이 프로세스는 데이터의 과적 합을 피하는 데 도움이되지만 이것이 사실 인 (정보 이론적) 이유는 알 수 없습니다. 관련하여, 나는 훈련에 사용되는 데이터 세트의 양과 2/3 및 …

2
k- 폴드 교차 검증의 분산 추정치
K- 폴드 교차 검증은 주어진 분류기의 일반화 능력을 추정하는 데 사용될 수 있습니다. 분산의 더 나은 추정치를 얻기 위해 모든 검증 실행에서 풀링 된 분산을 계산할 수 있습니까? 그렇지 않다면 왜? 교차 검증 실행에서 풀링 된 표준 편차를 사용하는 논문을 발견했습니다 . 나는 또한 검증 분산에 대한 보편적 추정기 가 …

1
AIC와 BIC가 어떤 교차 검증 방법과 동등한 지 R에서 어떻게 경험적으로 증명할 수 있습니까?
이 사이트의 다른 곳에서 한 질문 에 따르면, AIC는 LOO (Leave-One-Out) 교차 검증과 동일하고 BIC는 K- 폴드 교차 검증과 동일합니다. LOO 및 K-fold에 관련된 기술이 명확하고 AIC 및 BIC 값과 동등한 것으로 입증되도록 R에서 이것을 경험적으로 입증하는 방법이 있습니까? 주석이 달린 코드는 이와 관련하여 도움이 될 것입니다. 또한 BIC를 시연 …
26 r  aic  cross-validation  bic 

4
내부 대 외부 교차 검증 및 모델 선택
교차 검증 및 모델 선택을 통해 다음 두 가지 사항을 해결하려고합니다. P1 . 표본으로 훈련 할 때 모집단에 대한 예상 손실 추정 P2 . 이 추정의 불확실성 (분산, 신뢰 구간, 편향 등)을 측정하고보고하십시오. 표준 관행은 교차 추정을 반복하는 것으로 보입니다. 이는 추정기의 분산을 감소시키기 때문입니다. 그러나보고 및 분석과 관련하여 내부 …

4
교차 유효성 검사 후 '테스트'데이터 집합을 어떻게 사용합니까?
내가 본 일부 강의 및 자습서 에서는 데이터를 교육, 유효성 검사 및 테스트의 세 부분으로 나누는 것이 좋습니다. 그러나 테스트 데이터 세트를 어떻게 사용해야하는지, 전체 데이터 세트에 대해 교차 검증보다이 방법이 더 나은 방법은 명확하지 않습니다. 데이터의 20 %를 테스트 세트로 저장했다고 가정 해 봅시다. 그런 다음 나머지를 가져 와서 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.