«random-forest» 태그된 질문

랜덤 포레스트는 각 트리에 대해 임의의 변수 하위 집합을 선택하고 가장 빈번한 트리 출력을 전체 분류로 사용하는 기계 학습 분류기입니다.

6
의사 결정 트리 / 임의의 포리스트에있는 기능인 문자열
의사 결정 트리 / 임의의 응용 프로그램에서 일부 문제가 있습니다. 숫자와 문자열 (예 : 국가 이름)을 기능으로 갖는 문제를 해결하려고합니다. 이제 라이브러리 scikit-learn 은 숫자를 매개 변수로 사용하지만 문자열을 주입하고 많은 지식을 가지고 싶습니다. 그러한 시나리오를 어떻게 처리합니까? 파이썬의 해싱과 같은 메커니즘으로 문자열을 숫자로 변환 할 수 있습니다. 그러나 의사 …

7
ValueError : 입력에 NaN, 무한대 또는 dtype ( 'float32')에 비해 너무 큰 값이 있습니다
RandomForest 모델을 사용하여 테스트 데이터를 예측할 때 ValueError가 발생했습니다. 내 코드 : clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) 오류: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). 테스트 데이터 세트에서 잘못된 값을 어떻게 찾습니까? 또한 이러한 레코드를 …

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
SVM을 통해 랜덤 포레스트를 사용하는 경우와 그 반대의 경우는 언제입니까?
때 하나 사용하는 것이 Random Forest이상 SVM반대와 반대? 나는 cross-validation모델 비교가 모델 선택의 중요한 측면 이라는 것을 이해 하지만 여기서는 두 가지 방법의 경험 법칙과 경험적 규칙에 대해 더 배우고 싶습니다. 누군가 분류기의 미묘함, 강점 및 약점뿐만 아니라 각각에 가장 적합한 문제를 설명해 주시겠습니까?

3
MultiOutputClassifier의 predict_proba 이해
scikit-learn 웹 사이트 에서이 예제 를 따라 임의 포리스트 모델로 다중 출력 분류를 수행합니다. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = np.vstack((y1, y2)).T …

3
왜 XGBoost와 Random Forest가 필요합니까?
몇 가지 개념에 대해서는 명확하지 않았습니다. XGBoost는 약한 학습자를 강력한 학습자로 전환합니다. 이 작업의 장점은 무엇입니까? 단일 트리를 사용하는 대신 많은 약한 학습자를 결합? 랜덤 포레스트는 트리의 다양한 샘플을 사용하여 트리를 만듭니다. 단일 트리를 사용하는 대신이 방법의 장점은 무엇입니까?

4
랜덤 포레스트 오버 피트는?
나는 랜덤 포레스트에 대해 읽었지만 실제로 초과 피팅 문제에 대한 결정적인 대답을 찾을 수 없습니다. Breiman의 최초 논문에 따르면, 그들은 숲에서 나무의 수를 늘릴 때 과적 합해서는 안되지만 이것에 대해 합의가없는 것으로 보입니다. 이로 인해 문제에 대해 약간의 혼란이 생깁니다. 나보다 더 전문가 인 사람이 좀 더 구체적으로 대답하거나 문제를 …

3
랜덤 포레스트를 사용한 모델링에는 교차 검증이 필요합니까?
내가 본 한, 이것에 대한 의견은 다른 경향이 있습니다. 모범 사례는 특히 교차 검증을 사용하여 지시 할 것입니다 (특히 동일한 데이터 세트에서 다른 알고리즘과 RF를 비교하는 경우). 반면, 원본 출처는 모델 훈련 중에 OOB 오류가 계산된다는 사실이 테스트 세트 성능의 지표로 충분하다고 명시하고 있습니다. 비교적 최근의 대화에서 Trevor Hastie조차도 "임의의 …

2
분류기의 정확도를 높이는 방법?
임의의 나무와 다른 분류자를 실험하기 위해 OpenCV letter_recog.cpp 예제를 사용하고 있습니다. 이 예제에는 랜덤 트리, 부스팅, MLP, kNN, 순진한 베이 즈 및 SVM의 6 가지 분류 기가 구현되어 있습니다. 20000 개의 인스턴스와 16 개의 기능이 포함 된 UCI 문자 인식 데이터 세트가 사용되며 교육 및 테스트를 위해 절반으로 나눕니다. SVM에 …

5
이진 분류 알고리즘을 선택하십시오
이진 분류 문제가 있습니다. 훈련 세트에서 약 1000 개의 샘플 이진, 숫자 및 범주를 포함한 10 가지 속성 이 유형의 문제에 가장 적합한 알고리즘은 무엇입니까? 기본적으로 나는 비교적 깨끗하고 시끄럽지 않은 데이터에 가장 적합한 것으로 간주되므로 SVM (공칭 속성 값을 이진 기능으로 변환 한 예비)으로 시작하겠습니다.

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
RandomForestClassifier OOB 스코어링 방법
scikit-learn에서 임의 포리스트 구현은 가방 외부 샘플의 일반화 오류를 추정하기 위해 평균 정확도를 스코어링 방법으로 사용합니까? 설명서에는 언급되어 있지 않지만 score () 메서드는 평균 정확도를보고합니다. 불균형이 매우 높은 데이터 집합이 있으며 그리드 검색에서 ROC의 AUC를 점수 측정 기준으로 사용하고 있습니다. 분류 자에게 OOB 샘플에 대해 동일한 스코어링 방법을 사용하도록 지시하는 …

1
계층화 된 샘플링이 필요합니까 (랜덤 포레스트, Python)?
파이썬을 사용하여 불균형 데이터 세트에서 임의의 포리스트 모델을 실행합니다 (대상 변수는 이진 클래스였습니다). 교육 및 테스트 데이터 세트를 분할 할 때 계층화 된 샘플링을 사용할지 (표시된 코드와 같은) 사용하지 않을지 고민했습니다. 지금까지 프로젝트에서 계층화 된 사례가 더 높은 모델 성능으로 이어질 것으로 관찰했습니다. 그러나 현재 데이터 세트와 대상 클래스의 분포가 …

1
랜덤 포레스트를 사용하여 샘플링 할 기능 수
"통계 학습의 요소" 를 인용 한 Wikipedia 페이지 는 다음과 같이 말합니다. 일반적으로 피처 의 분류 문제의 경우 ⌊ √p피p 각 분할에 p each기능이 사용됩니다.⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 나는 이것이 상당히 교육받은 추측이며 아마도 경험적 증거로 확인되었을 것임을 이해하지만, 제곱근을 선택 해야하는 다른 이유가 있습니까? 거기에 통계적인 현상이 있습니까? 이것이 어떻게 오차의 …

5
Scikit-learn Random Forest의 기능 중요성은 매우 높은 표준 편차를 보여줍니다
scikit-learn Random Forest Classifier를 사용하고 있으며이 예제 와 같이 기능의 중요도를 그려보고 싶습니다 . 그러나 피처 중요도 표준 편차가 피처 중요도 자체보다 거의 항상 크다는 점에서 필자의 결과는 완전히 다릅니다 (첨부 된 이미지 참조). 그런 행동을하는 것이 가능합니까, 아니면 그것을 그릴 때 실수를 저지르고 있습니까? 내 코드는 다음과 같습니다 import …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.