«cross-validation» 태그된 질문

보류 된 데이터 서브 세트에서 모델 성능을 정량화하기 위해 모델 피팅 중에 데이터 서브 세트를 반복적으로 보류합니다.

1
하이퍼 파라미터를 튜닝 할 때 유효성 검사 데이터에 대한 모델 성능을 평가하면 유효성 검사 데이터에 대한 정보가 유출되는 이유는 무엇입니까?
François Chollet의 Python을 사용한 딥 러닝에서는 다음과 같이 말합니다. 결과적으로 유효성 검증 세트의 성능을 기반으로 모델 구성을 조정하면 모델을 직접 학습하지 않아도 신속하게 유효성 검증 세트에 과적 합할 수 있습니다. 이 현상의 핵심은 정보 유출 개념입니다. 유효성 검사 세트에서 모델의 성능을 기반으로 모델의 하이퍼 파라미터를 조정할 때마다 유효성 검사 데이터에 …

2
베이지안에 테스트 세트가 필요하지 않다는 것이 사실입니까?
필자는 최근 Eric J. Ma의이 강연을 보고 그의 블로그 항목을 확인했습니다. Radford Neal은 Bayesian 모델이 과적 합 (하지만 과적 합할 수는 없음 )이며이를 사용할 때이를 검증하기위한 테스트 세트가 필요하지 않음 을 확인했습니다. 따옴표는 매개 변수를 조정하기 위해 유효성 검사 세트를 사용하는 것에 대해 이야기하는 것 같습니다.) 솔직히 말해서 주장이 저를 …

1
상호 배타적이지 않은 카테고리를 분류 할 수있는 딥 러닝 모델
예 : 직업 설명에 "영국의 Java Senior Engineer"문장이 있습니다. 나는 2 개 종류로 예측하는 깊은 학습 모델을 사용하려면 : English 와 IT jobs. 기존 분류 모델을 사용하는 경우 softmax마지막 레이어에서 함수가있는 레이블 하나만 예측할 수 있습니다 . 따라서 두 모델 신경망을 사용하여 두 범주 모두에서 "예"/ "아니오"를 예측할 수 있지만 …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
교차 검증 전에 감독되지 않은 기능 선택을 수행하는 것이 실제로 괜찮습니까?
에서 통계 학습의 요소 , 나는 다음과 같은 문장을 발견했습니다 : 하나의 자격이 있습니다. 샘플을 제거하기 전에 감독되지 않은 초기 선별 단계를 수행 할 수 있습니다. 예를 들어 교차 검증을 시작하기 전에 50 개 샘플 모두에서 가장 큰 분산을 갖는 1000 개의 예측 변수를 선택할 수 있습니다. 이 필터링에는 클래스 …

2
우리는 항상 이력서를해야합니까?
내 질문 : 비교적 큰 데이터 세트에서도 CV를 수행해야합니까? 비교적 큰 데이터 세트가 있으며 데이터 세트에 기계 학습 알고리즘을 적용합니다. PC가 빠르지 않기 때문에 CV (및 그리드 검색)에 시간이 너무 오래 걸립니다. 특히 많은 튜닝 매개 변수로 인해 SVM이 종료되지 않습니다. 따라서 CV를 수행하는 경우 상대적으로 작은 데이터를 선택해야합니다. 반면에 …

1
대수 분류기, 자세한 정보?
대수 분류기 (고급 교차 검증, 온라인 교육 및 병렬 교육에 대한 일반적인 접근 방식)를 읽었 으며 파생 알고리즘의 성능에 놀랐습니다. 그러나 Naive Bayes (및 GBM) 외에 프레임 워크에 적용되는 알고리즘이 많지 않은 것 같습니다. 다른 분류기에서 작업 한 다른 논문이 있습니까? (SVM, 랜덤 포레스트)

1
k- 폴드 CV를 사용한 오리지널 (?) 모델 선택
k- 폴드 CV를 사용하여 회귀 모델 중에서 선택하는 경우 일반적으로 표준 오류 SE와 함께 각 모델에 대해 개별적으로 CV 오류를 계산하고 CV 오류가 가장 낮은 모델의 1 SE 내에서 가장 간단한 모델을 선택합니다 (1 표준 오류 규칙 (예 : 여기 참조 ). 그러나 최근 에이 방법으로 변동성을 과대 평가하고 있으며 …

2
모델 구축 프로세스가 대화식 일 때의 백 테스트 또는 교차 검증
백 테스트를 수행하려는 성능의 예측 모델이 있습니다 (예 : 데이터 세트를 가져 와서 이전 시점으로 "되감기"하고 모델의 예상 성능을 확인하십시오). 문제는 내 모델 중 일부가 대화식 프로세스를 통해 빌드되었다는 것입니다. 예를 들어 Frank Harrell의 Regression Modeling Strategies 의 조언에 따라 한 모델에서 제한된 입방 스플라인을 사용하여 피처와 응답 간의 비선형 …

2
부스팅에 대한 가방 외부 오류 추정치?
랜덤 포레스트에서 각 트리는 고유 한 부 스트랩 데이터 샘플에서 병렬로 성장합니다. 각 부 스트랩 샘플에는 고유 한 관측치의 약 63 %가 포함될 것으로 예상되므로, 관측치의 약 37 %가 트리 테스트에 사용될 수 있습니다. 이제 확률 적 그라디언트 부스팅에서는 RF와 비슷한 추정치가있는 것 같습니다.오 오비e r r o rOOBerrorOOB_{error} bag.fraction이 …

3
R을 사용한 능선 회귀에 대한 K- 폴드 또는 홀드 아웃 교차 검증
200 과목과 1000 변수로 내 데이터 예측의 교차 유효성 검사를 진행하고 있습니다. 변수 수 (사용하고 싶습니다)가 샘플 수보다 많기 때문에 능선 회귀에 관심이 있습니다. 그래서 수축 견적 도구를 사용하고 싶습니다. 다음은 예제 데이터로 구성됩니다. #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { …

2
부스팅 트리에서 튜닝 매개 변수의 최적 값을 찾는 방법은 무엇입니까?
부스팅 트리 모델에는 3 개의 튜닝 매개 변수가 있다는 것을 알고 있습니다. 트리 수 (반복 횟수) 수축 매개 변수 분할 수 (각 구성 요소의 크기) 내 질문은 : 각 튜닝 매개 변수에 대해 최적의 값을 어떻게 찾아야합니까? 그리고 어떤 방법? 수축 매개 변수와 트리 수 매개 변수는 함께 작동합니다. 즉, …

1
R / 캐럿 : 교육 및 테스트 세트와 교차 검증?
이것은 아마도 어리석은 질문 일지 모르지만 캐럿이있는 모델을 생성하고 LOOCV또는 (또는 더 많은 지점까지) 사용 LGOCV하면 본질적으로 교차 유효성 검사 단계 인 경우 데이터를 기차와 테스트 세트로 분할하는 이점은 무엇입니까 어쨌든? 관련 질문 중 일부를 읽었으며 일부 교차 유효성 검사 방법 (예 : 캐럿 사이트에서 여기에 설명 된 방법 )은 …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
로지스틱 회귀 분석에서 모델 선택 및 모델 성능
로지스틱 회귀 분석에서 모델 선택 및 모델 성능에 대한 질문이 있습니다. 세 가지 다른 가설을 기반으로하는 세 가지 모델이 있습니다. 처음 두 모델 (z 및 x로 이름 지정)은 각 모델에서 하나의 설명 변수 만 가지며 세 번째 모델 (w로 이름 지정)은 더 복잡합니다. 나는 w 모델에 대한 변수 선택을 위해 …

2
혼합 모델에 대한 교차 검증?
동료와 저는 R에서 다양한 선형 및 비선형 혼합 효과 모델을 피팅하고 있습니다. 관찰 된 효과가 상대적으로 일반화되는지 확인할 수 있도록 피팅 된 모델에 대해 교차 검증을 수행해야합니다. 이것은 일반적으로 사소한 작업이지만 우리의 경우 전체 데이터를 공통 레벨을 공유하지 않는 교육 부분과 테스트 부분 (CV 목적)으로 분할해야합니다. 예를 들어 훈련 데이터는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.