통계 및 빅 데이터 cross-validation

2

서포트 벡터 머신에 대한 학습 파라미터를 선택할 때 교차 검증을 어떻게 적절하게 적용합니까?

훌륭한 libsvm 패키지는 파이썬 인터페이스와 분류기의 정확성을 최대화하는 학습 매개 변수 (비용 및 감마)를 자동으로 검색하는 파일 "easy.py"를 제공합니다. 주어진 학습 매개 변수 집합 내에서 교차 유효성 검사에 의해 정확도가 작동하지만 교차 유효성 검사의 목적을 손상시키는 것 같습니다. 즉, 학습 매개 변수 자체가 데이터의 과잉 적합을 유발할 수있는 방식으로 선택 …

9 cross-validation svm

1

데이터를 다시 섞어 야합니까?

우리는 획득하기에 꽤 비싼 생물학적 샘플을 가지고 있습니다. 이러한 샘플을 일련의 테스트를 통해 예측 모델을 작성하는 데 사용되는 데이터를 생성했습니다. 이를 위해 샘플을 훈련 (70 %) 및 테스트 (30 %) 세트로 나누었습니다. 우리는 성공적으로 모델을 만들고 테스트 세트에 적용하여 성능이 "최적"이 아님을 발견했습니다. 실험가들은 이제 더 나은 모델을 만들기 위해 …

9 classification modeling experiment-design cross-validation bootstrap

2

데이터에 대한 ROC 곡선 계산

그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

교차 검증 구현이 결과에 영향을 줍니까?

아시다시피, K-fold 및 random subsampling이라는 두 가지 널리 사용되는 교차 유효성 검사 유형이 있습니다 ( Wikipedia에 설명되어 있음 ). 그럼에도 불구하고, 일부 연구자들은 K- 폴드 CV로 묘사 된 것이 실제로 임의의 서브 샘플링 논문 인 논문을 만들고 출판한다는 것을 알고 있습니다. 물론 그 차이는 눈에 띄지 않으며 내 질문도 있습니다. …

9 machine-learning cross-validation

«cross-validation» 태그된 질문