«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

2
교차 검증 및 순서 형 로지스틱 회귀
순서 형 로지스틱 회귀 분석에 대한 교차 유효성 검사를 이해하려고합니다. 게임의 목표는 분석에 사용 된 모델의 유효성을 검사하는 것입니다. 먼저 장난감 데이터 세트를 구성합니다. set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 …

2
Keras : val_loss가 증가하는 동안 손실이 감소하는 이유는 무엇입니까?
나는 많은 매개 변수에 대한 그리드 검색을 설정했습니다. 이진 분류를 수행하는 Keras 신경망에 가장 적합한 매개 변수를 찾으려고합니다. 출력은 1 또는 0입니다. 약 200 개의 기능이 있습니다. 그리드 검색을 수행했을 때 많은 모델과 매개 변수를 얻었습니다. 가장 좋은 모델에는 다음과 같은 매개 변수가 있습니다. Epochs : 20 Batch Size : …

2
주요 구성 요소의 수를 판별하기 위해 PCA에 대한 교차 유효성 검증을 수행하는 방법은 무엇입니까?
주요 구성 요소 분석, PCA에 대한 자체 함수를 작성하려고합니다 (물론 이미 많이 작성되었지만 직접 구현하는 데 관심이 있습니다). 내가 만난 주요 문제는 교차 검증 단계와 예측 제곱합 (PRESS)을 계산하는 것입니다. 어떤 교차 유효성 검사를 사용하든 중요하지 않은 이론에 대한 질문이지만 LOOCV (Leave-One-Out Cross-Validation)를 고려하십시오. LOOCV를 수행하려면 다음과 같은 이론이 필요하다는 …


3
시계열 데이터를 기차 / 테스트 / 검증 세트로 분할
시계열 데이터를 기차 / 테스트 / 검증 세트로 분할하는 가장 좋은 방법은 무엇입니까? 여기서 유효성 검사 세트는 하이퍼 파라미터 튜닝에 사용됩니까? 우리는 3 년 분량의 일일 판매 데이터를 보유하고 있으며, 2015-2016 년을 교육 데이터로 사용한 다음 2017 년 데이터에서 10 주를 무작위로 샘플링하여 유효성 검사 세트로 사용하고 2017 년 데이터에서 …

2
교차 검증을 사용하여 glmnet 패키지의 편차 측정에 대한 정확한 정의?
현재 reseach의 경우 이항 종속 변수에 대해 R의 glmnet 패키지를 통해 Lasso 방법을 사용하고 있습니다. glmnet에서 최적의 람다는 교차 검증을 통해 발견되며 결과 모델은 다양한 분류법 (예 : 오 분류 오류 또는 편차)과 비교할 수 있습니다. 내 질문 : 이탈은 glmnet에서 정확히 어떻게 정의됩니까? 어떻게 계산 되나요? (Friedman 등의 해당 …

2
정규화 매개 변수 람다의 오류율이 볼록 함수입니까?
Ridge 또는 Lasso에서 정규화 매개 변수 람다를 선택할 때 권장되는 방법은 다른 람다 값을 시도하고 유효성 검사 세트에서 오류를 측정 한 다음 마지막으로 가장 낮은 오류를 반환하는 람다 값을 선택하는 것입니다. 함수 f (lambda) = error가 볼록한 경우 나에게 오지 않습니다. 이렇게 될 수 있을까요? 즉,이 곡선은 하나 이상의 지역 …

2
데이터를 시험과 훈련으로 나누는 것이 순전히 "통계"인가?
나는 기계 학습 / 데이터 과학을 공부하는 물리학 학생 이므로이 질문이 충돌을 시작한다는 의미는 아닙니다.) 그러나 물리 학부 프로그램의 대부분은 실험실 / 실험을 수행하는 것입니다. 이는 많은 데이터를 의미합니다. 처리 및 통계 분석. 그러나 물리학 자들이 데이터를 다루는 방식과 데이터 과학 / 통계 학습서가 데이터를 다루는 방식 사이에는 큰 차이가 …

4
홀드 아웃 세트를 만드는 가장 적절한 방법은 무엇입니까? 일부 주제를 제거하거나 각 주제에서 관찰을 제거하는 방법은 무엇입니까?
26 개의 기능과 31000 개의 행이있는 데이터 집합이 있습니다. 38 명의 피험자 데이터 세트입니다. 생체 인식 시스템입니다. 그래서 나는 주제를 식별하고 싶습니다. 테스트 세트를 사용하려면 일부 값을 제거해야한다는 것을 알고 있습니다. 그래서 무엇을 더 잘하고 왜? (a) 30 명을 훈련 세트로 유지하고 8 명을 시험 세트로 제거 (b) 38 명의 …

1
K를 선택하면 왜 교차 검증 점수가 낮아 집니까?
주변에 재생 보스톤 주택 데이터 집합 와 RandomForestRegressor에 (w / 기본 매개 변수) 나는 이상한 뭔가를 발견, scikit 배우기 : 평균 교차 유효성 검사 점수가 감소 내가 내 교차 검증 전략 등이었다 다음 10 이상으로 주름의 수를 증가로 : cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... …

2
복잡한 측량 데이터에서 LASSO 이후 교차 검증
지속적인 결과와 함께 LASSO를 사용하는 일부 후보 예측 변수에서 모델 선택을 시도하고 있습니다. 목표는 LASSO로부터 튜닝 파라미터의 솔루션 경로를 얻은 후에 K- 폴드 교차 검증에 의해 수행 될 수있는 최고의 예측 성능을 갖는 최적 모델을 선택하는 것이다. 여기서 문제는 데이터가 군집 샘플링 및 계층화가있는 복잡한 다단계 조사 설계 (NHANES)에서 나온다는 …

3
교차 검증 된 분류 정확도에 대한 신뢰 구간
두 개의 입력 x 선 이미지 사이의 유사성 메트릭을 계산하는 분류 문제를 연구 중입니다. 이미지가 동일한 인물 인 경우 ( '오른쪽 레이블') 더 높은 메트릭이 계산됩니다. 서로 다른 두 사람의 입력 이미지 ( '잘못된'라벨)는 측정 항목이 낮아집니다. 분류 오류 10 배 교차 검증을 사용하여 오 분류 확률을 계산했습니다. 현재 샘플 …

1
교차 검증을 사용할 때 정밀도 및 회수 평균
2 클래스 레이블이 지정된 데이터에 대해 여러 분류기를 사용하여 분류를 수행했으며 5 배 교차 검증을 사용했습니다. 각 접기에 대해 tp, tn, fp 및 fn을 계산했습니다. 그런 다음 각 테스트의 정확도, 정밀도, 리콜 및 F 점수를 계산했습니다. 내 질문은 결과를 평균화하려고 할 때 정확도의 평균을 취했지만 정확도, 리콜 및 F 점수도 …


1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.