«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

2
중첩 교차 검증 사용
Model Selection 의 Scikit Learn 페이지 에는 중첩 교차 검증 사용에 대해 언급되어 있습니다. >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) 두 개의 교차 검증 루프가 병렬로 수행됩니다. 하나는 감마를 설정하기 위해 GridSearchCV 추정기에 의해, 다른 하나는 추정기의 예측 성능을 측정하기 위해 cross_val_score에 의해 다른 것입니다. …

2
일반 영어에서 R을 사용하여 Cox 비례 위험 회귀 모델의 해석 및 검증
누군가 내 Cox 모델을 평범한 영어로 설명 할 수 있습니까? 이 함수를 사용하여 다음 Cox 회귀 모델을 모든 데이터에 맞추 었 습니다cph . 내 데이터는라는 객체에 저장됩니다 Data. 변수는 w, x및 y연속; z두 가지 수준의 요소입니다. 시간은 개월 단위로 측정됩니다. 내 환자 중 일부가 변수에 대한 데이터가 누락되었습니다 z( NB …

1
Train vs Test Error Gap과 과적 합과의 관계 : 상충되는 조언 조정
열차와 테스트 오차를 비교하는 방법, 특히 둘 사이에 간격이있을 경우 처리 방법에 대해 상충되는 조언이있는 것 같습니다. 나에게 충돌하는 것처럼 보이는 두 개의 학교가있는 것 같습니다. 두 사람을 조정하는 방법을 이해하려고합니다 (또는 여기서 누락 된 것을 이해합니다). 생각 # 1 : 열차와 테스트 세트 성능 사이의 간격만으로는 과적 합을 나타내지 …

2
k- 폴드 교차 검증은 훈련 / 검증 / 테스트 세트의 맥락에 어떻게 적합합니까?
나의 주요 질문은 k- 폴드 교차 검증이 훈련 / 검증 / 테스트 세트를 갖는 맥락에서 어떻게 맞는지 이해하려고 노력하는 것과 관련이 있습니다 (그러한 맥락에서 전혀 적합하다면). 일반적으로 사람들은 데이터를 훈련, 검증 및 테스트 세트 (앤드류 응 코스 당 60/20/20의 비율)로 분할하여 검증 세트가 모델 훈련을위한 최적의 파라미터를 식별하는 데 사용된다고 …

2
교차 검증 및 파라미터 최적화
10 배 교차 검증을 사용할 때 매개 변수 최적화에 대한 질문이 있습니다. 모든 접기 모델 훈련 중에 매개 변수를 수정해야하는지 여부를 묻고 싶습니다. 즉 (1) 모든 접기의 평균 정확도에 대해 최적화 된 매개 변수 집합을 하나 선택합니다. 또는 (2) 모든 접기마다 최적화 된 매개 변수를 찾은 다음 모든 접기마다 다른 …

5
로지스틱 회귀에 대한 철학적 질문 : 왜 최적의 임계 값이 훈련되지 않습니까?
일반적으로 로지스틱 회귀 분석에서는 모형에 적합하고 훈련 세트에 대한 예측을 얻습니다. 그런 다음 훈련 예측 ( 여기서 와 같은 ) 을 교차 검증 하고 ROC 곡선과 같은 것을 기반으로 최적의 임계 값을 결정합니다. 실제 모델에 임계 값의 교차 검증을 통합하고 전체를 전체적으로 학습하지 않는 이유는 무엇입니까?

1
랜덤 포레스트 평가 : OOB 대 CV
예를 들어 AUC를 사용하여 랜덤 포레스트의 품질을 평가할 때 백 아웃 샘플 또는 홀드 아웃 교차 검증 세트를 통해 이러한 수량을 계산하는 것이 더 적절합니까? OOB 샘플을 통해 계산하면 더 비관적 인 평가를 제공하지만 그 이유는 알 수 없습니다.

4
교차 검증은 데이터 스누핑과 어떻게 다릅니 까?
방금 "통계 학습 소개"를 마쳤습니다 . 교차 검증을 사용하여 다양한 머신 러닝 기술에 대한 최상의 튜닝 매개 변수를 찾는 것이 데이터 스누핑과 다른지 궁금합니다. 튜닝 세트의 어떤 값이 테스트 세트에서 최상의 예측 결과를 가져 오는지를 반복해서 점검하고 있습니다. 우리가 도달 한 튜닝 매개 변수가 우연히이 특정 테스트 세트에 맞고 향후 …

1
k- 겹 교차 검증 을 통해 최종 모델을 만들기 위해 모든
k- 겹 교차 검증을 수행 할 때 한 번에 하나를 제외한 모든 접기를 가리키고 예측 한 다음이 프로세스를 번 반복하여 정확도 메트릭을 얻는다는 것을 이해합니다 . 그런 다음 모든 인스턴스에 대해 정확도 측정 항목을 실행할 수 있습니다 (정확도, 리콜, 정확하게 분류 된 비율). 매번 계산 한 다음 결과를 평균화 한 …

2
검증 및 모델 선택을위한 부트 스트랩 이해
부트 스트랩 의 기본 원리가 어떻게 작동하는지 이해하고 있지만 모델 선택에 부트 스트랩을 사용하거나 과적 합을 피하는 방법을 잘 모르겠습니다. 예를 들어, 모델 선택의 경우 부트 스트랩 샘플에서 가장 낮은 오차 (아마도 편차)를 산출하는 모델을 선택 하시겠습니까? 모델 선택 또는 검증에 부트 스트랩을 사용하는 방법에 대해 설명하는 텍스트가 있습니까? 편집 …

1
LogisticRegressionCV에서 비 수렴을 수정하는 방법
scikit-learn을 사용하여 일련의 데이터에 대해 교차 검증을 사용하여 로지스틱 회귀 분석을 수행하고 있습니다 (약 7000 개의 정규 관측 값을 갖는 약 14 개의 매개 변수). 또한 1 또는 0 값을 가진 대상 분류 기가 있습니다. 내가 가진 문제는 사용 된 솔버에 관계없이 수렴 경고가 계속 발생한다는 것입니다 ... model1 = …

1
커널 PCA 용 커널을 선택하는 방법은 무엇입니까?
커널 PCA (주성분 분석)가 최종 데이터 출력에서 ​​어떤 커널을 선택하여 데이터를 양호하게 분리 할 수있는 방법은 무엇이며 커널의 매개 변수를 최적화하는 방법은 무엇입니까? 가능한 경우 Layman의 용어를 높이 평가할 것이며 그러한 방법을 설명하는 논문 링크도 좋습니다.

1
jackknifing의 현대적인 사용이 있습니까?
문제 는 부트 스트랩이 잭 나이 핑보다 우수 합니다. 그러나 jackknifing이 모수 추정값의 불확실성을 특성화하기위한 유일하거나 최소한 가능한 옵션이 있는지 궁금합니다. 또한 실제 상황에서 부트 스트랩 핑과 관련하여 편향 / 정확성이 잭 니핑되는 방식은 무엇이며, 잭나이프 결과는보다 복잡한 부트 스트랩이 개발되기 전에 예비 통찰력을 제공 할 수 있습니까? 일부 상황 …

4
교차 유효성 검사를 통해 근거가없는 데이터 집합에서 서로 다른 클러스터링 방법을 비교할 수 있습니까?
현재, 나는 진실이없는 텍스트 문서 데이터 세트를 분석하려고합니다. k-fold cross validation을 사용하여 다른 클러스터링 방법을 비교할 수 있다고 들었습니다. 그러나 과거에 보았던 예는 근거가 있습니다. 이 데이터 세트에서 k-fold 방법을 사용하여 결과를 확인할 수있는 방법이 있습니까?

1
R-자유도에서 PROC Mixed과 lme / lmer의 차이점
참고 :이 질문은 법적 이유로 인해 이전 질문을 삭제해야했기 때문에 다시 게시되었습니다. SAS의 PROC MIXED를 R lme의 nlme패키지 기능과 비교하는 동안 다소 혼란스러운 차이점을 발견했습니다. 구체적으로는, 다른 시험에서 자유도간에 상이 PROC MIXED하고 lme, 그리고 왜 생각해. 다음 데이터 세트에서 시작하십시오 (아래 제공된 R 코드). ind : 측정 대상을 나타내는 계수 …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.