«train» 태그된 질문

통계 모델 또는 알고리즘의 훈련 (또는 추정).

5
신경망 훈련을위한 트레이드 오프 배치 크기와 반복 횟수
신경망을 훈련시킬 때, 어떤 차이점이 있습니까? 배치 크기를 , 반복 횟수를b에이aa비bb 배치 크기를 , 반복 횟수를d씨cc디dd 여기서 ?a b = c dab=cd ab = cd 달리 말하면, 동일한 양의 훈련 예제를 사용하여 신경망을 훈련한다고 가정하면 최적의 배치 크기와 반복 횟수를 설정하는 방법은 무엇입니까? (배치 크기 * 반복 횟수 = 신경망에 …

1
분류에서 훈련 데이터를 생성하기위한 계층화 및 무작위 샘플링의 이점
원래 데이터 세트를 분류를위한 훈련 및 테스트 세트로 분할 할 때 무작위 샘플링 대신 계층화 샘플링을 사용하면 어떤 이점이 있는지 알고 싶습니다. 또한 계층화 된 샘플링이 무작위 샘플링보다 분류기에 더 많은 편향을 가져 옵니까? 데이터 준비를 위해 계층화 된 샘플링을 사용하려는 응용 프로그램은 2에 대해 훈련 된 Random Forests 분류기입니다.2삼2삼\frac{2}{3}원래 …

3
기차와 테스트로 나누기 전이나 후에 전가?
N ~ 5000의 데이터 세트가 있고 적어도 하나의 중요한 변수에서 약 1/2이 누락되었습니다. 주요 분석 방법은 Cox 비례 위험입니다. 다중 대치를 사용할 계획입니다. 또한 기차와 테스트 세트로 나눌 것입니다. 데이터를 분할 한 다음 별도로 대치해야합니까? 중요하다면 PROC MI에서 사용할 것 입니다 SAS.

2
CalibratedClassifierCV를 사용하여 분류자를 교정하는 올바른 Scikit 방법
Scikit에는 CalibratedClassifierCV 가있어 특정 X, y 쌍에서 모델을 교정 할 수 있습니다. 또한 명확하게data for fitting the classifier and for calibrating it must be disjoint. 그들이 분리되어 있어야한다면, 분류기를 다음과 같이 훈련시키는 것이 합법적인가? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 나는 동일한 훈련 세트를 사용함으로써 disjoint data규칙을 어 기고 있다는 것을 …

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
caret와 기본 randomForest 패키지를 통한 randomForest의 다른 결과
약간 혼란 스러워요 : 캐럿을 통한 훈련 된 모델의 결과는 원래 패키지의 모델과 어떻게 다를 수 있습니까? 캐럿 패키지와 함께 RandomForest의 FinalModel을 사용하여 예측 전에 사전 처리가 필요한지 여부를 읽습니다 .그러나 나는 여기서 전처리를 사용하지 않습니다. 캐럿 패키지를 사용하고 다른 mtry 값을 조정하여 다른 임의의 포리스트를 학습했습니다. > cvCtrl = …

3
생존 분석 문제에 대한 교육, 테스트, 검증
나는 여기에서 다양한 스레드를 탐색했지만 정확한 질문에 대답하지 않았다고 생각합니다. ~ 50,000 명의 학생 데이터와 이탈 시간이 있습니다. 잠재적 인 공변량이 많은 비례 위험 회귀 분석을 수행하려고합니다. 또한 중퇴 / 숙박에 대한 로지스틱 회귀 분석을 수행 할 예정입니다. 주요 목표는 새로운 학생 집단을 예측하는 것이지만, 작년의 집단과 크게 다를 것이라고 …


4
ML 자체가 아닌 응용 기계 학습에 대해 배울 수있는 좋은 예 / 책 / 자료
ML 과정을 이미 수강했지만 지금은 직장에서 ML 관련 프로젝트를 진행하고 있기 때문에 실제로 적용하기 위해 많은 노력을 기울이고 있습니다. 나는 내가하고있는 일이 이전에 연구 / 다루어졌지만 확실하지는 않지만 특정 주제를 찾을 수는 없습니다. 온라인에서 찾은 모든 머신 러닝 예제는 매우 간단합니다 (예 : Python에서 KMeans 모델을 사용하고 예측을 보는 방법). …

3
거대한 데이터 세트에서 학습 할 때 접근하는 방법
기본적으로 거대한 데이터 세트에 대해 배우는 두 가지 일반적인 방법이 있습니다 (시간 / 공간 제한이있는 경우). 부정 행위 :)-훈련을 ​​위해 "관리 가능한"하위 집합 만 사용하십시오. 수익 감소 법칙으로 인해 정확도 손실을 무시할 수 있습니다. 모델의 예측 성능은 모든 교육 데이터가 통합되기 훨씬 전에 평평 해집니다. 병렬 컴퓨팅-문제를 더 작은 부분으로 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.