«cart» 태그된 질문

'분류와 회귀 나무'. CART는 널리 사용되는 머신 러닝 기술이며 랜덤 포레스트 및 그라디언트 부스팅 머신의 일반적인 구현과 같은 기술의 기초를 형성합니다.

2
의사 결정 트리의 범주 형 기능을 코딩하는 모범 사례?
선형 회귀 분석을 위해 범주 형 피쳐를 코딩 할 때 규칙이 있습니다. 더미의 수는 공선 성을 피하기 위해 총 레벨 수보다 하나 작아야합니다. 의사 결정 트리에 대해 비슷한 규칙이 있습니까 (태그, 부스트)? 파이썬의 표준 연습은 n레벨을 n인형 (sklearns ' OneHotEncoder또는 Pandas' pd.get_dummies) 으로 확장 하여 저에게 최적이 아닌 것처럼 보이기 …

3
부스팅 방법이 특이 치에 민감한 이유
부스팅 방법이 특이 치에 민감하다는 내용의 많은 기사를 찾았지만 그 이유를 설명하는 기사는 없습니다. 내 경험상 특이 치는 기계 학습 알고리즘에 좋지 않지만 부스팅 방법이 특히 민감한 것으로 분류되는 이유는 무엇입니까? 부스트 트리, 랜덤 포레스트, 신경망, SVM 및 로지스틱 회귀 분석과 같은 간단한 회귀 분석 방법은 특이 치에 대한 민감도 …


1
의사 결정 트리에서 이진 분할 구현의 차이점
나는 의사 결정 트리의 이진 분할의 실제 구현에 대한 호기심 - 그것은 범주 예측의 수준에 관련된 .XjXjX{j} 특히, 예측 정확도와 안정성을 향상시키기 위해 의사 결정 트리를 사용하여 예측 모델을 작성할 때 일종의 샘플링 방식 (예 : 배깅, 오버 샘플링 등)을 자주 사용합니다. 이러한 샘플링 루틴 동안, 범주 형 변수가 전체 …

2
패널 데이터를위한 기계 학습 알고리즘
이 질문에서- 구조적 / 계층 적 / 다단계 예측 변수를 고려한 의사 결정 트리를 구성하는 방법이 있습니까? -그들은 나무에 대한 패널 데이터 방법을 언급합니다. Vector Machines 및 Neural Networks를 지원하기위한 특정 패널 데이터 방법이 있습니까? 그렇다면 알고리즘 및 구현 가능한 경우 R 패키지에 대한 몇 가지 논문을 인용 할 수 …

2
랜덤 포레스트는 예측 편견을 나타 냅니까?
왜 또는 왜 그렇지 않을지에 대한 추론이 있지만 이것은 간단한 질문이라고 생각합니다. 내가 묻는 이유는 내가 최근에 자체 RF 구현을 작성했으며 그것이 잘 수행하더라도 예상 한 것만 큼 성능이 좋지 않다는 것입니다 ( Kaggle 사진 품질 예측 경쟁 데이터 세트, 우승 점수 및 일부 어떤 기술이 사용되었는지에 관한 후속 정보). …

1
Adaboost에서 의사 결정 그루터기를 약한 학습자로 사용하는 방법은 무엇입니까?
Decision Stump를 사용하여 Adaboost를 구현하고 싶습니다. Adaboost를 반복 할 때마다 데이터 세트의 기능만큼 많은 의사 결정을 내릴 수 있습니까? 예를 들어, 24 개의 기능이있는 데이터 세트가있는 경우 각 반복마다 24 개의 의사 결정 스텀프 분류 기가 있어야합니까? 아니면 무작위로 일부 기능을 선택하고 모든 기능 대신 분류기를 만들어야합니까?

2
의사 결정 트리 및 회귀-예측 값이 교육 데이터 범위를 벗어날 수 있습니까?
의사 결정 트리와 관련하여 예측 값이 교육 데이터 범위를 벗어날 수 있습니까? 예를 들어, 대상 변수의 학습 데이터 세트 범위가 0-100 인 경우 모델을 생성하고 다른 것으로 적용 할 때 내 값은 -5 일 수 있습니까? 또는 150? 의사 결정 트리 회귀에 대한 나의 이해는 여전히 규칙 기반입니다-왼쪽 / 오른쪽 …


3
영화 등급 예측을위한 분류 모델
데이터 마이닝에 익숙하지 않고 영화 등급 예측을위한 분류 모델을 만들고 있습니다. IMDB에서 데이터 세트를 수집했으며 모델에 의사 결정 트리와 가장 가까운 인접 방법을 사용할 계획입니다. 무료로 사용할 수있는 데이터 마이닝 도구가 필요한 기능을 제공 할 수 있는지 알고 싶습니다.

2
의사 결정 트리 공간과 임의 포리스트의 MCMC 샘플링
임의 숲 의 모음입니다 의사 결정 트리 무작위로 (때로는 훈련 데이터를 포기할)와 각 트리를 구축하는 특정 기능을 선택하여 형성했다. 분명히 그들은 잘 배우고 일반화합니다. 의사 결정 트리 공간에 대한 MCMC 샘플링을 수행하거나 임의 포리스트와 비교 한 사람이 있습니까? MCMC를 실행하고 샘플링 된 모든 트리를 저장하는 데 계산 비용이 더 많이들 …

2
분류 트리 (rpart에서)를 규칙 세트로 구성합니까?
rpart (R)를 사용하여 복잡한 분류 트리를 구성한 후에 각 클래스에 대해 생성 된 결정 규칙을 구성하는 방법이 있습니까? 하나의 거대한 트리를 얻는 대신 각 클래스에 대한 규칙 세트를 얻습니까? (그렇다면 어떻게?) 다음은 예제를 보여주는 간단한 코드 예제입니다. fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) 감사.
11 r  classification  cart  rpart 

3
희소 예측 변수 및 반응을 사용하는 CART와 유사한 방법에 사용할 수있는 라이브러리가 있습니까?
R의 gbm 패키지를 사용하여 일부 큰 데이터 세트로 작업하고 있습니다. 예측 변수 행렬과 응답 벡터가 매우 희박합니다 (즉, 대부분의 항목이 0 임). 나는 여기 에서했던 것처럼이 sparseness를 이용하는 알고리즘을 사용하여 의사 결정 트리를 구축하기를 바랐다 . 이 백서에서와 같이 대부분의 항목에는 가능한 많은 기능 중 일부만 있으므로 데이터가 명시 적으로 …

2
포장 된 트리 / 임의의 포리스트 트리가 단일 의사 결정 트리보다 높은 편향을 갖는 이유는 무엇입니까?
완전히 성장한 의사 결정 트리 (즉, 정리되지 않은 의사 결정 트리)를 고려하면 분산이 높고 편차가 적습니다. 배깅 및 랜덤 포레스트는 분산을 줄이고 예측 정확도를 높이기 위해 이러한 높은 분산 모델을 사용하고 집계합니다. 배깅 및 랜덤 포레스트는 모두 부트 스트랩 샘플링을 사용하며 "통계 학습 요소"에 설명 된대로 단일 트리에서 편향을 증가시킵니다. …

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.