«cross-validation» 태그된 질문

통계 결과의 일반화 가능성을 결정하는 일반적인 절차를 나타냅니다. 교차 검증은 특정 모델이 미래의 관측치를 어떻게 예측하는지 평가하는 맥락에서 자주 발생합니다. 교차 검증 방법은 일반적으로 모델 피팅 중에 데이터의 임의 하위 집합을 보류하고 보류 된 데이터가 얼마나 정확하게 예측되는지 정량화하고 예측 정확도를 측정하기 위해이 프로세스를 반복하는 것을 포함합니다.

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
랜덤 포레스트를 사용한 모델링에는 교차 검증이 필요합니까?
내가 본 한, 이것에 대한 의견은 다른 경향이 있습니다. 모범 사례는 특히 교차 검증을 사용하여 지시 할 것입니다 (특히 동일한 데이터 세트에서 다른 알고리즘과 RF를 비교하는 경우). 반면, 원본 출처는 모델 훈련 중에 OOB 오류가 계산된다는 사실이 테스트 세트 성능의 지표로 충분하다고 명시하고 있습니다. 비교적 최근의 대화에서 Trevor Hastie조차도 "임의의 …

2
GridSearch의 출력을 사용하는 방법?
저는 현재 Python 및 Scikit과 함께 분류 목적으로 배우고 GridSearch에 대해 약간의 독서를하고 있습니다. 최상의 결과를 얻도록 견적 매개 변수를 최적화하는 데 좋은 방법이라고 생각했습니다. 내 방법론은 다음과 같습니다. 내 데이터를 훈련 / 테스트로 나눕니다. 5Fold Cross 검증과 함께 GridSearch를 사용하여 내 추정기 (Random Forest, Gradient Boost, SVC 등)를 훈련하고 …

3
PySpark에서 여러 데이터 프레임을 행 단위로 병합
나는 10 개 데이터 프레임이 pyspark.sql.dataframe.DataFrame로부터 얻은 randomSplit로 (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)지금은 9 가입 할 td내가 그렇게하는 방법, 하나의 데이터 프레임에 s '를? 나는 이미 시도 unionAll했지만이 함수는 두 개의 …

4
부트 스트랩과 교차 유효성 검사의 차이점은 무엇입니까?
기계 학습 모델의 강력한 평가를 위해 K- 폴드 교차 검증을 적용했습니다. 그러나 나는이 목적을 위해 부트 스트랩 방법이 있다는 것을 알고 있습니다. 그러나 성능 평가 측면에서 이들의 주요 차이점을 볼 수는 없습니다. 내가 아는 한 부트 스트랩은 특정 수의 임의의 훈련 + 테스트 하위 세트를 생성하지만 (다른 방법으로도) CV 보다이 …

1
Keras 적합 함수의 validation_split 매개 변수는 어떻게 작동합니까?
Keras Sequential 모델 적합 함수의 유효성 검증 분할은 https://keras.io/models/sequential/에 다음과 같이 문서화되어 있습니다 . validation_split : 0과 1 사이의 부동 소수점입니다. 유효성 검사 데이터로 사용될 훈련 데이터의 비율. 이 모델은 훈련 데이터의이 부분을 분리하여 학습하지 않으며, 각 에포크의 끝에서이 데이터의 손실 및 모델 메트릭을 평가합니다. 유효성 검사 데이터는 셔플 링하기 …

2
검증 세트와 테스트 세트를 모두 사용하는 이유는 무엇입니까?
신경망을 고려하십시오. 주어진 데이터 세트에 대해 훈련, 검증 및 테스트 세트로 나눕니다. 고전적인 60:20:20 비율로이를 수행 한 다음 유효성 검사 세트에서 네트워크를 확인하여 과적 합을 방지합니다. 그렇다면 성능을 확인하기 위해 테스트 세트에서 테스트해야합니까? 테스트 세트의 오류는 네트워크에 대한 유효성 검사 세트와 다소 같지 않습니까? 유효성 검사 세트와 같이 보이지 않는 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


2
유효성 검사 손실이 계속 떨어지더라도 과적 합이 발생할 수 있습니까?
나는 Keras에 컨볼 루션 + LSTM 모델을 가지고 있는데, 이것과 비슷한 (참조 1), 나는 Kaggle 콘테스트에 사용하고 있습니다. 아키텍처는 아래와 같습니다. 20 % 검증 분할로 50 에포크에 대해 레이블이 지정된 11000 샘플 세트 (두 클래스, 초기 유병률은 ~ 9 : 1이므로 1에서 약 1/1 비율로 업 샘플링했습니다)에 대해 학습했습니다. 한동안 …

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
데이터 세트 크기에 따른 과적 합 / 비 적합
아래 그래프에서 x 축 => 데이터 세트 크기 y 축 => 교차 검증 점수 빨간 선 은 훈련 데이터입니다 녹색 선 은 데이터 테스트 용입니다. 내가 말하는 겁니다하는 튜토리얼에서는, 저자는 그 점을 말한다 곳 레드 라인 과 그린 라인 수단 중복, 더 많은 데이터를 수집해도 일반화 성능이 향상되지는 않으며 데이터가 …

2
교차 검증 : K- 폴드 대 반복 무작위 서브 샘플링
분류 문제에 대해 어떤 모델 교차 검증 유형을 선택해야하는지 궁금합니다. K- 폴드 또는 랜덤 서브 샘플링 (부트 스트랩 샘플링)? 가장 좋은 추측은 훈련에 2/3의 데이터 세트 (~ 1000 개 항목)를 사용하고 검증에 1/3을 사용하는 것입니다. 이 경우 K-fold는 세 번의 반복 (폴드) 만 제공하므로 안정적인 평균 오류를 볼 수 없습니다. …

1
익명의 수치 예측 자와 함께 numer.ai 경쟁에 접근하는 방법?
Numer.ai 는 얼마 동안 사용되어 왔으며 웹에는 게시물이나 다른 토론이 거의없는 것 같습니다. 시스템이 수시로 변경되었으며 오늘 설정은 다음과 같습니다. [0,1]의 연속 값과 이진 목표를 가진 21 개의 피처로 트레인 (N = 96K) 및 테스트 (N = 33K) 데이터. 데이터가 깨끗하고 (결 측값 없음) 2 주마다 업데이트됩니다. 테스트 세트에 예측을 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.