«cart» 태그된 질문

'분류와 회귀 나무'. CART는 널리 사용되는 머신 러닝 기술이며 랜덤 포레스트 및 그라디언트 부스팅 머신의 일반적인 구현과 같은 기술의 기초를 형성합니다.

1
의사 결정 트리 변수 (기능) 스케일링 및 변수 (기능) 정규화 (튜닝) 어떤 구현에 필요합니까?
많은 머신 러닝 알고리즘에서 기능 스케일링 (일명 가변 스케일링, 정규화)은 일반적인 선행 단계입니다. Wikipedia-Feature Scaling- 이 질문은 끝났 습니다 의사 결정 트리와 관련하여 특별히 두 가지 질문이 있습니다. 기능 확장이 필요한 의사 결정 트리 구현이 있습니까? 대부분의 알고리즘 분할 기준이 확장에 무관심하다는 인상을 받고 있습니다. 다음 변수를 고려하십시오. (1) 단위, …

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
그라디언트 트리 부스팅의 트리 크기
Friedman이 제안한 그라디언트 트리 부스팅은 J터미널 노드 (= 잎) 가있는 의사 결정 트리 를 기본 학습자로 사용합니다. 정확히 J노드를 가진 나무를 키우는 방법에는 여러 가지가 있습니다 . J그래디언트 트리 부스팅을 위해 정확히 터미널 노드를 사용 하여 트리를 키우는 방법이 확립 되어 있습니까? R gbm패키지 의 트리 성장 절차 를 살펴 …
10 r  cart  boosting 

1
R 선형 회귀 범주 형 변수 "숨김"값
이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
모집단 간의 차이 조사
우리는 두 집단에서 샘플을 가지고 말 : A와 B. 이 모집단이 개인으로 구성되어 있다고 가정하고 특성 측면에서 개인을 설명하기로 결정했습니다. 이러한 기능 중 일부는 범주 형 (예 : 작동하도록 운전합니까?)이고 일부는 숫자 (예 : 높이)입니다. 이러한 기능을 합니다. 우리는 수백 가지 기능 (예 : n = 200)을 수집합니다. 모든 개인에게 …

2
트리 추정기는 항상 편향되어 있습니까?
Decision Trees에 대해 숙제를하고 있는데, 대답해야 할 질문 중 하나는 "견적자가 나무로 만들어지는 이유는 무엇이며 배깅은 어떻게 분산을 줄이는 데 도움이됩니까?"입니다. 이제 과적 응 된 모델은 모든 데이터 요소를 맞추려고하기 때문에 바이어스가 매우 낮은 경향이 있음을 알고 있습니다. 그리고 파이썬에서 일부 데이터 세트에 트리를 장착하는 스크립트가있었습니다 (단일 기능 포함. 아래 …
9 cart  bias 

2
CART 트리는 예측 변수 간의 상호 작용을 캡처합니까?
이 논문 은 CART에서 각 단계에서 단일 공변량에 대해 이진 분할이 수행되므로 모든 분할이 직교하므로 공변량 간의 상호 작용은 고려되지 않는다고 주장합니다. 그러나 트리의 계층 적 구조는 예측 변수들 간의 상호 작용이 자동으로 모델링된다는 것을 보장한다고 주장하는 많은 매우 진지한 언급 이있다 (예를 들어, 이 논문 과 물론 Hastie). 누가 …

2
사소한 기능에 대한 적합도를 평가하는 방법
분류 및 회귀에 대한 지식이 있지만 생존 분석을 처음 접하는 사람입니다. 회귀 분석을 위해 MSE 및 R 제곱 통계가 있습니다. 그러나 생존 모델 A가 어떤 종류의 그래픽 플롯 (KM 곡선) 외에 생존 모델 B보다 우수하다고 말할 수 있습니까? 가능한 경우 차이점을 예를 들어 설명하십시오 (예 : R의 rpart 패키지). 한 …

1
rpart ()에서 분할 수를 선택하는 방법은 무엇입니까?
내가 사용하고 rpart.control위해 minsplit=2, 그리고에서 다음과 같은 결과를 받았습니다 rpart()기능을. 데이터가 과적 합되지 않도록하려면 분할 3 또는 분할 7을 사용해야합니까? 스플릿 7을 사용해야합니까? 알려주세요. 트리 구성에 실제로 사용되는 변수 : [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 …
9 r  cart  rpart 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.