«xgboost» 태그된 질문

eXtreme Gradient Boosting 알고리즘과 관련된 질문입니다.


2
XGBoost 중요성의 결과를 해석하는 방법은 무엇입니까?
xgboost 모델을 실행했습니다. 의 출력을 해석하는 방법을 정확히 모르겠습니다 xgb.importance. 게인, 커버 및 주파수의 의미는 무엇이며 어떻게 해석합니까? 또한 Split, RealCover 및 RealCover %는 무엇을 의미합니까? 여기에 몇 가지 추가 매개 변수가 있습니다 기능 중요도에 대해 더 자세히 알려주는 다른 매개 변수가 있습니까? R 문서에서 Gain은 Information gain과 비슷하며 Frequency는 …

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
하이퍼 튜닝 XGBoost 매개 변수
XGBoost는 범주 형 변수와 연속 형 종속 변수를 모두 다루는 데 큰 도움이되었습니다. 그러나 XGBoost 문제에 대해 최적화 된 매개 변수를 어떻게 선택합니까? 이것이 최근 Kaggle 문제에 대한 매개 변수를 적용한 방법입니다. param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, …
27 r  python  xgboost 

2
LightGBM 및 XGBoost
어느 것이 더 나은지 이해하려고합니다 (특히 분류 문제에서 더 정확합니다) LightGBM과 XGBoost를 비교하는 기사를 검색했지만 두 가지만 발견했습니다. https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031- 속도에 관한 것이지만 정확성은 아닙니다. https://github.com/Microsoft/LightGBM/wiki/Experiments-LightGBM 의 저자가 제공 한 것으로 LightGBM이이기는 것은 놀라운 일이 아닙니다. 내 테스트에서 두 알고리즘에 대해 거의 동일한 AUC를 얻지 만 LightGBM은 2-5 배 빠르게 실행됩니다. …
25 xgboost 

3
왜 XGBoost와 Random Forest가 필요합니까?
몇 가지 개념에 대해서는 명확하지 않았습니다. XGBoost는 약한 학습자를 강력한 학습자로 전환합니다. 이 작업의 장점은 무엇입니까? 단일 트리를 사용하는 대신 많은 약한 학습자를 결합? 랜덤 포레스트는 트리의 다양한 샘플을 사용하여 트리를 만듭니다. 단일 트리를 사용하는 대신이 방법의 장점은 무엇입니까?

4
XGBoost는 다중 공선 성을 자체적으로 처리합니까?
현재 21 개의 기능 (약 150 개의 기능 목록에서 선택)이있는 데이터 세트에서 XGBoost를 사용하고 있으며 ~ 98 개의 기능을 얻기 위해 핫 코드로 코딩했습니다. 이러한 98 가지 기능 중 일부는 예를 들어 중복됩니다. 변수 (기능) 도 및 .에이에이A비에이비에이\frac{B}{A}기음에이기음에이\frac{C}{A} 내 질문은 : 어떻게 ( 만약? ) 의사 결정 트리 핸들 다중 …



1
의사 결정 트리 : 잎사귀 (가장 우선) 및 수준별 나무 통과
문제 1 : 나는 나무가 확장되는 방식에 관한 LightGBM 의 설명으로 혼란스러워합니다 . 그들은 말한다 : 대부분의 의사 결정 트리 학습 알고리즘은 다음 이미지와 같이 수준별로 심도별로 트리를 확장합니다. 질문 1 : 어떤 "가장 많은"알고리즘이 이런 식으로 구현됩니까? 내가 아는 한 C4.5와 CART는 DFS를 사용합니다. XGBoost는 BFS를 사용합니다. 의사 결정 …

2
xgBoost에서 쌍별 순위 모델에 얼마나 적합합니까?
내가 아는 한, 모델 순위를 정하는 학습을 훈련 시키려면 데이터 세트에 세 가지가 있어야합니다. 라벨 또는 관련성 그룹 또는 쿼리 ID 특징 벡터 예를 들어 Microsoft Learning to Rank 데이터 세트 는이 형식 (레이블, 그룹 ID 및 기능)을 사용합니다. 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... GBM을 …
14 search  ranking  xgboost  gbm 

3
팬더 데이터 프레임-DMatrix
scikit learn에서 xgboost를 실행하려고합니다. 그리고 팬더 만 사용하여 데이터를 데이터 프레임에로드합니다. xgboost와 함께 pandas df를 어떻게 사용해야합니까? xgboost algo를 실행하는 데 필요한 DMatrix 루틴이 혼동됩니다.

1
XGBRegressor와 xgboost의 속도 차이가 큰가?
다음 코드를 사용하여 모델을 훈련시키는 경우 : import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 약 1 분 후에 완료됩니다. Sci-Kit 학습 방법을 사용하여 모델을 훈련시키는 경우 : import …

1
회귀 분석을위한 높은 카디널리티 범주 기능을 사용하여 기능의 중요성 (숫자 고유 변수)
랜덤 포레스트의 기능 중요도를 사용하여 회귀 문제에 대한 경험적 기능 선택을 수행하려고 시도했습니다. 회귀 문제는 모든 기능이 범주 형이며 많은 기능이 많은 수준 (100-1000 정도)입니다. one-hot 인코딩은 각 레벨마다 더미 변수를 생성하므로 각 기능 (컬럼)이 아니라 각 레벨마다 기능 중요도가 중요합니다. 이러한 기능 중요도를 집계하는 좋은 방법은 무엇입니까? 기능의 모든 …

3
xgboost의 대략적인 스플릿 포인트 제안을 이해하는 데 도움이 필요합니다
배경: 에 xgboost 반복 시도 트리에 맞게 F t을 온통 n 개의 목적은 다음 최소화 예 :tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] 여기서 일차 및 이전 최상의 추정을 통해 2 차 유도체 (Y) (반복에서 t - 1 ) :gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) 그리고 우리의 손실 함수입니다.lll 질문은 (마침내) : 빌드 …
12 xgboost  gbm 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.