«random-forest» 태그된 질문

랜덤 포레스트는 각 트리에 대해 임의의 변수 하위 집합을 선택하고 가장 빈번한 트리 출력을 전체 분류로 사용하는 기계 학습 분류기입니다.

1
단일 의사 결정 트리를 추가하여 온라인 임의 포리스트
RF (Random Forest)는 Decision Trees (DT)의 앙상블에 의해 생성됩니다. 배깅을 사용하여 각 DT는 다른 데이터 서브 세트에서 학습됩니다. 따라서 새로운 데이터에 대한 의사 결정을 더 추가하여 온라인 임의 포리스트를 구현하는 방법이 있습니까? 예를 들어, 10K 샘플이 있고 10 DT를 훈련시킵니다. 그런 다음 1K 샘플을 얻고 전체 RF를 다시 훈련하는 대신 …

1
회귀 분석을위한 높은 카디널리티 범주 기능을 사용하여 기능의 중요성 (숫자 고유 변수)
랜덤 포레스트의 기능 중요도를 사용하여 회귀 문제에 대한 경험적 기능 선택을 수행하려고 시도했습니다. 회귀 문제는 모든 기능이 범주 형이며 많은 기능이 많은 수준 (100-1000 정도)입니다. one-hot 인코딩은 각 레벨마다 더미 변수를 생성하므로 각 기능 (컬럼)이 아니라 각 레벨마다 기능 중요도가 중요합니다. 이러한 기능 중요도를 집계하는 좋은 방법은 무엇입니까? 기능의 모든 …

1
scikit-learn을 사용하여 임의 포리스트에서 기능 중요도를 사용하여 기능 선택
나는 한 scikit 배우기와 임의 숲의 기능 importances를 꾸몄다 . 랜덤 포레스트를 사용한 예측을 향상시키기 위해 플롯 정보를 사용하여 피처를 제거하려면 어떻게해야합니까? 즉, 플롯 정보를 기반으로 기능이 쓸모 없는지 또는 임의의 포리스트 성능이 더 나빠지는지 확인하는 방법은 무엇입니까? 줄거리는 속성을 기반으로 feature_importances_하며 분류자를 사용합니다 sklearn.ensemble.RandomForestClassifier. 기능 선택을위한 다른 기술 이 …

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
임의 포리스트 분류에 범주 형 데이터 유형을 맞추려면 어떻게해야합니까?
Random Forest Algorithm을 적용하여 훈련 데이터 세트의 정확성을 찾아야합니다. 그러나 내 데이터 세트 유형은 범주 및 숫자입니다. 해당 데이터를 맞추려고 할 때 오류가 발생합니다. '입력에 NaN, 무한대 또는 dtype ('float32 ')에 비해 너무 큰 값이 있습니다.' 개체 데이터 형식에 문제가있을 수 있습니다. RF 적용을 위해 변환하지 않고 범주 형 데이터를 …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
표본 외 데이터 과적 합에 대해 100 % 모델 정확도가 있습니까?
cognitiveclass.ai에서 R 과정에 대한 기계 학습을 마쳤으며 randomforests를 실험하기 시작했습니다. R의 "randomForest"라이브러리를 사용하여 모델을 만들었습니다.이 모델은 좋거나 나쁜 두 클래스로 분류됩니다. 모델이 과적 합되면 자체 훈련 세트의 데이터에서는 잘 수행되지만 샘플에서 벗어난 데이터에서는 제대로 수행되지 않습니다. 내 모델을 훈련하고 테스트하기 위해 전체 데이터 세트를 섞어서 훈련 용 70 %와 테스트 …

2
P (Y | X)에 대해 학습 할 때 성능이 좋은 모델이 있으면 최적의 P (X | Y)를 찾으십시오.
입력 데이터: > 티셔츠의 특징 (컬러, 로고 등)XXX > 이윤Y와이Y 위의 및 Y 에서 임의의 포리스트를 학습했으며 테스트 데이터에서 합리적인 정확도를 달성했습니다. 그래서 나는 가지고있다엑스엑스X와이와이Y .피( Y| 엑스)피(와이|엑스)P(Y|X) 이제 즉 이 많은 이익 마진이 기대 되는 X 기능 의 확률 분포 를 찾고 싶습니다 .피( X| 와이)피(엑스|와이)P(X|Y)엑스엑스X 임의의 숲 (또는 …

3
언밸런스 클래스 — 오탐을 최소화하는 방법?
이진 클래스 특성이있는 데이터 집합이 있습니다. +1 클래스 (암 양성)의 623 개의 인스턴스와 -1 클래스 (암 음성)의 101,671 개의 인스턴스가 있습니다. 다양한 알고리즘 (Naive Bayes, Random Forest, AODE, C4.5)을 시도했지만 모두 허용 할 수없는 거짓 음수 비율을 가지고 있습니다. 랜덤 포레스트는 전체 예측 정확도가 가장 높고 (99.5 %)가 음성 비율이 …

4
임의의 숲에서 과적 합을 피하는 방법?
임의의 포리스트에서 과적 합을 피하고 싶습니다. 이와 관련하여 mtry, nodesize 및 maxnodes 등을 사용하려고합니다. 이러한 매개 변수의 값을 선택하도록 도와 주시겠습니까? R을 사용하고 있습니다. 또한 가능한 경우 임의 포리스트 (R)에서 k- 폴드 크로스 유효성 검사를 사용하는 방법을 알려주십시오.

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
임의 포리스트와 선형 회귀를 통한 기능 중요도는 다릅니다.
Lasso를 적용하여 기능 순위를 매기고 다음 결과를 얻었습니다. rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 데이터 세트에는 3 개의 레이블이 있습니다. 다른 레이블의 기능 순위는 동일합니다. 그런 다음 임의의 포리스트를 동일한 데이터 세트에 적용했습니다. rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 …

3
Scikit-Learn의 Random Forest Regressor에서 가중치 (수식) 내보내기
Python (Random Forest Regressor)의 Scikit Learn을 사용하여 예측 모델을 훈련했으며 수동 예측을위한 Excel 도구를 만들기 위해 각 기능의 가중치를 추출하고 싶습니다. 내가 찾은 유일한 것은 model.feature_importances_도움이되지 않습니다. 그것을 달성 할 수있는 방법이 있습니까? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( …

3
Amazon EC2의 R 임의 포리스트 오류 : 5.4Gb 크기의 벡터를 할당 할 수 없습니다
randomForest()약 20 개의 예측 변수와 600K 행이있는 1000 개의 나무와 데이터 프레임을 사용하여 R의 임의 포리스트 모델을 훈련 하고 있습니다. 내 랩톱에서는 모든 것이 잘 작동하지만 amazon ec2로 이동하고 같은 것을 실행하면 오류가 발생합니다. Error: cannot allocate vector of size 5.4 Gb Execution halted c3.4xlarge인스턴스 유형을 사용하고 있기 때문에 꽤 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.