«decision-trees» 태그된 질문

의사 결정 트리는 기회 이벤트 결과, 리소스 비용 및 유틸리티를 포함하여 의사 결정과 가능한 결과를 포함하는 나무와 같은 그래프 또는 모델을 사용하는 의사 결정 지원 도구입니다. 알고리즘을 표시하는 한 가지 방법입니다.


6
의사 결정 트리 / 임의의 포리스트에있는 기능인 문자열
의사 결정 트리 / 임의의 응용 프로그램에서 일부 문제가 있습니다. 숫자와 문자열 (예 : 국가 이름)을 기능으로 갖는 문제를 해결하려고합니다. 이제 라이브러리 scikit-learn 은 숫자를 매개 변수로 사용하지만 문자열을 주입하고 많은 지식을 가지고 싶습니다. 그러한 시나리오를 어떻게 처리합니까? 파이썬의 해싱과 같은 메커니즘으로 문자열을 숫자로 변환 할 수 있습니다. 그러나 의사 …

3
왜 XGBoost와 Random Forest가 필요합니까?
몇 가지 개념에 대해서는 명확하지 않았습니다. XGBoost는 약한 학습자를 강력한 학습자로 전환합니다. 이 작업의 장점은 무엇입니까? 단일 트리를 사용하는 대신 많은 약한 학습자를 결합? 랜덤 포레스트는 트리의 다양한 샘플을 사용하여 트리를 만듭니다. 단일 트리를 사용하는 대신이 방법의 장점은 무엇입니까?

5
의사 결정 트리 알고리즘이 선형 또는 비선형입니까?
최근 내 친구가 인터뷰에서 의사 결정 트리 알고리즘이 선형 또는 비선형 알고리즘인지 물었습니다. 이 질문에 대한 답을 찾으려고했지만 만족스러운 설명을 찾지 못했습니다. 누구 든지이 질문에 대한 해결책에 대답하고 설명 할 수 있습니까? 또한 비선형 기계 학습 알고리즘의 다른 예는 무엇입니까?

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
xgboost에서 확률을 예측하는 방법?
아래 예측 함수는 -ve 값도 제공하므로 확률이 될 수 없습니다. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) 나는 구글 & 시도 pred_s <- predict(bst, x_mat_s2,type="response") 했지만 작동하지 않았다. 질문 대신 확률을 예측하는 방법?

1
의사 결정 트리에서 연속 변수에 대해 분리 점이 어떻게 선택됩니까?
의사 결정 트리와 관련된 두 가지 질문이 있습니다. 연속 속성이있는 경우 분할 값을 어떻게 선택합니까? 예 : 나이 = (20,29,50,40 ....) R에 값 이있는 연속 속성 가 있다고 가정하십시오 . f 를 v로 나눌 때 f > v에 대한 최소 게인을 갖기 위해 분할 점 v 를 찾는 알고리즘을 어떻게 …

4
의사 결정 트리 대 KNN
어떤 경우에는 의사 결정 트리를 사용하고 다른 경우에는 KNN을 사용하는 것이 더 낫습니까? 특정 경우에 왜 그중 하나를 사용합니까? 그리고 다른 경우에 다른? (알고리즘이 아닌 기능을 보면) 누구든지 이것에 대한 설명이나 언급이 있습니까?

4
의사 결정 트리 또는 로지스틱 회귀 분석?
분류 문제를 해결하고 있습니다. 동일한 수의 범주 형 변수와 연속 변수를 포함하는 데이터 세트가 있습니다. 어떤 기술을 사용해야하는지 어떻게 알 수 있습니까? 의사 결정 트리와 로지스틱 회귀 분석 로지스틱 회귀 분석이 연속 변수에 더 적합하고 의사 결정 트리가 연속 + 범주 변수에 더 적합하다고 가정하는 것이 옳습니까?

1
그라디언트 향상 트리는 어떤 기능에도 적합합니까?
신경망의 경우 신경망 이 R n 의 콤팩트 한 부분 집합에서 연속적인 기능에 근접 할 수 있다는 보편적 근사 정리 가 있습니다 .아르 자형엔아르 자형엔R^n 그래디언트 향상 트리에 대해서도 비슷한 결과가 있습니까? 더 많은 지점을 계속 추가 할 수 있기 때문에 합리적으로 보이지만 주제에 대한 공식적인 토론을 찾을 수 없습니다. …

1
의사 결정 트리 : 잎사귀 (가장 우선) 및 수준별 나무 통과
문제 1 : 나는 나무가 확장되는 방식에 관한 LightGBM 의 설명으로 혼란스러워합니다 . 그들은 말한다 : 대부분의 의사 결정 트리 학습 알고리즘은 다음 이미지와 같이 수준별로 심도별로 트리를 확장합니다. 질문 1 : 어떤 "가장 많은"알고리즘이 이런 식으로 구현됩니까? 내가 아는 한 C4.5와 CART는 DFS를 사용합니다. XGBoost는 BFS를 사용합니다. 의사 결정 …

1
XGBRegressor와 xgboost의 속도 차이가 큰가?
다음 코드를 사용하여 모델을 훈련시키는 경우 : import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 약 1 분 후에 완료됩니다. Sci-Kit 학습 방법을 사용하여 모델을 훈련시키는 경우 : import …

3
언밸런스 클래스 — 오탐을 최소화하는 방법?
이진 클래스 특성이있는 데이터 집합이 있습니다. +1 클래스 (암 양성)의 623 개의 인스턴스와 -1 클래스 (암 음성)의 101,671 개의 인스턴스가 있습니다. 다양한 알고리즘 (Naive Bayes, Random Forest, AODE, C4.5)을 시도했지만 모두 허용 할 수없는 거짓 음수 비율을 가지고 있습니다. 랜덤 포레스트는 전체 예측 정확도가 가장 높고 (99.5 %)가 음성 비율이 …

3
회귀 트리는 지속적으로 예측할 수 있습니까?
와 같은 부드러운 함수가 있다고 가정하십시오 . 훈련 세트가 있습니다. D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} 그리고 물론 내가 원하는 곳에서 f 를 평가할 수는 있지만 f 는 모른다 .f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), …

2
신경망 및 의사 결정 포리스트의 데이터를 정규화하는 방법
20000 샘플의 데이터 세트가 있으며 각각 12 개의 다른 기능이 있습니다. 각 샘플의 범주는 0 또는 1입니다. 결과와 두 기술을 비교할 수 있도록 샘플을 분류하기 위해 신경망과 의사 결정 포리스트를 훈련시키고 싶습니다. 내가 우연히 만난 것은 데이터의 적절한 정규화입니다. 하나의 기능이 범위 내에 있습니다[0,106][0,106][0,10^6], 다른 하나 [30,40][30,40][30,40]다른 값을 읽을 때 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.