«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

1
열차 / 유효 / 테스트 세트의 평균 빼기에 대한 질문
데이터 전처리를하고 데이터에 Convonets를 구축하려고합니다. 내 질문은 : 100 개의 이미지가있는 총 데이터 세트가 있고 100 개의 이미지 중 하나에 대한 평균을 계산 한 다음 각 이미지에서 뺀 다음 기차와 유효성 검사 세트로 나눕니다. 주어진 테스트 세트에서 처리하는 단계이지만 다음 링크에 따라 올바른 방법이 아닌 것 같습니다 : http://cs231n.github.io/neural-networks-2/#datapre " …


1
언제 교차 검증을 사용하지 않습니까?
사이트를 읽으면서 대부분의 답변은 기계 학습 알고리즘에서 교차 유효성 검사를 수행해야한다고 제안합니다. 그러나 "머신 러닝 이해하기"라는 책을 읽으면서 때때로 교차 검증을 사용하지 않는 것이 더 나은 운동이 있다는 것을 알았습니다. 정말 혼란 스러워요. 전체 데이터에 대한 훈련 알고리즘이 교차 검증보다 낫습니까? 실제 데이터 세트에서 발생합니까? 를 k 가정 클래스로 하자 …

1
시계열 예측을위한 랜덤 포레스트 회귀
제지 공장의 성능을 예측하기 위해 RF 회귀를 사용하려고합니다. 나는 기계 (종이 생산, 기계가 끌어 낸 전력)의 성능뿐만 아니라 입력 (속도 및 목재 펄프의 양 등 ...)에 대한 분 단위 데이터를 가지고 있으며 10 분을 예측하려고합니다. 성능 변수에 앞서. 12 개월의 데이터를 얻었으므로 훈련 세트의 경우 11 개월과 테스트의 마지막 달로 …

1
cv.glmnet (R의 LASSO 회귀)으로 교차 유효성 검사를 수행하는 방법은 무엇입니까?
R에서 glmnet을 사용하여 LASSO 모델을 올바르게 훈련하고 테스트하는 방법에 대해 궁금합니다. 특히 외부 테스트 데이터 세트가 부족한 경우 교차 검증 (또는 다른 유사한 방법)을 사용하여 LASSO 모델을 테스트 하는 방법을 궁금합니다 . 시나리오를 정리하겠습니다 : 내 glmnet 모델을 알리고 훈련 할 데이터 세트가 하나뿐입니다. 결과적으로 교차 검증을 사용하여 데이터를 분할하여 …

3
테스트 오류의 CV 추정치가 실제 테스트 오류를 ​​과소 평가하는 이유는 무엇입니까?
테스트 오류의 k- 폴드 교차 검증 추정치가 일반적으로 실제 테스트 오류를 ​​과소 평가한다는 것을 이해합니다. 이것이 왜 그런지 혼란 스럽습니다. 학습 오류가 일반적으로 테스트 오류보다 낮은 이유를 알 수 있습니다. 오류를 추정하는 것과 동일한 데이터로 모델을 학습하기 때문입니다! 그러나 교차 검증의 경우에는 해당되지 않습니다. 오류를 측정하는 부분은 훈련 과정에서 제외됩니다. …

1
Pareto 스무딩 중요도 샘플링 (PSIS-LOO) 실패 방지
최근에이 논문에서 설명하는 파레토 스무딩 중요도 샘플링 휴가 교차 검증 (PSIS-LOO)을 사용하기 시작했습니다. Vehtari, A., & Gelman, A. (2015). 파레토는 중요도 샘플링을 완화했습니다. arXiv 프리 프린트 ( link ). Vehtari, A., Gelman, A., & Gabry, J. (2016). leave-one-out 교차 검증 및 WAIC를 사용한 실제 베이지안 모델 평가. arXiv 프리 프린트 …

1
그래프 커널 SVM 하이퍼 파라미터 튜닝에는 어떤 방법이 있습니까?
그래프 에 존재하는 데이터가 있습니다 . 꼭짓점은 두 클래스 중 하나에 속하며 두 클래스 를 구별하기 위해 SVM을 훈련시키는 데 관심이 있습니다. 이것에 대한 하나의 적절한 커널은 인 확산 커널 , 는 IS 라플라시안 의 및 튜닝 파라미터이다.y i ∈ { − 1 , 1 }G = ( V, E)G=(V,E)G=(V,E)와이나는∈ …

1
랜덤 포레스트를 사용한 모델링에는 교차 검증이 필요합니까?
내가 본 한, 이것에 대한 의견은 다른 경향이 있습니다. 모범 사례는 특히 교차 검증을 사용하여 지시 할 것입니다 (특히 동일한 데이터 세트에서 다른 알고리즘과 RF를 비교하는 경우). 반면, 원본 출처는 모델 훈련 중에 OOB 오류가 계산된다는 사실은 테스트 세트 성능의 지표로 충분하다고 명시하고 있습니다. 비교적 최근 대화에서 Trevor Hastie조차도 "임의의 …

2
작은 표본 크기 데이터에 대한 훈련, 교차 검증 및 테스트 세트 크기를 선택하는 방법은 무엇입니까?
샘플 크기가 작고 (예 : N = 100) 두 개의 클래스가 있다고 가정합니다. 머신 러닝을위한 교육, 교차 검증 및 테스트 세트 크기를 어떻게 선택해야합니까? 나는 직관적으로 선택합니다 훈련 세트 크기는 50 교차 검증 세트 크기 25 및 테스트 크기는 25입니다. 그러나 아마도 이것은 다소 의미가 있습니다. 이 값들을 어떻게 결정해야합니까? …

1
홀드 아웃 유효성 검사가 k- 폴드 CV보다 "새 데이터 가져 오기"에 대한 더 나은 근사입니까?
몇 주 전에 질문에 대한 답변을 다시 생각하고 있습니다 홀드 아웃 교차 검증은 데모를 위해 반복적으로 사용할 수있는 단일 테스트 세트를 생성합니다. 우리는 이것이 여러 가지면에서 부정적인 특징이라는 것에 동의하는 것 같습니다. 왜냐하면 하나의 보류 세트가 무작위성을 통해 비 대표적 일 수 있기 때문입니다. 또한 훈련 데이터에 과적 합하는 것과 …

2
모델의 교차 검증 예측 오차 측면에서 순방향 선택 / 후진 제거에 비해 LASSO의 우수성
나는 원래의 풀 모델에서 앞으로 선택 뒤로 제거 L1 벌칙 기술 (LASSO) 순방향 선택 / 역방향 제거를 사용하여 얻은 모델의 경우, CVlm에서 DAAG제공되는 패키지를 사용 하여 교차 검증 된 예측 오차 추정치를 얻었 습니다 R. LASSO를 통해 선택된 모델에는을 사용했습니다 cv.glm. LASSO에 대한 예측 오차는 다른 것들에 대해 얻은 것보다 …

3
교육 데이터 (또는 모든 데이터)에서만 기능 선택을 수행해야합니까?
교육 데이터 (또는 모든 데이터)에서만 기능 선택을 수행해야합니까? 나는 Guyon (2003) 과 Singhi and Liu (2006)와 같은 몇 가지 토론과 논문을 겪었 지만 여전히 정답에 대해서는 확실하지 않습니다. 내 실험 설정은 다음과 같습니다. 데이터 세트 : 50 건의 건강 관리 및 50 건의 질병 환자 (질병 예측과 관련이있는 CA 200 …

1
일반화 성능 분포 비교
분류 문제에 대해 두 가지 학습 방법 와 가 있으며 반복적 인 교차 유효성 검사 또는 부트 스트랩과 같은 일반화 성능을 추정한다고 가정하십시오. 이 과정에서 나는 이러한 반복에서 각 방법에 대한 점수 와 의 분포를 얻 (예 : 각 모델에 대한 ROC AUC 값의 분포).AAABBB PAPAP_APBPBP_B 이러한 분포를 보면 있지만 …

1
ARIMA 모델의 관측치 48에서 혁신적인 특이 치를 어떻게 통합합니까?
데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.