«cart» 태그된 질문

'분류와 회귀 나무'. CART는 널리 사용되는 머신 러닝 기술이며 랜덤 포레스트 및 그라디언트 부스팅 머신의 일반적인 구현과 같은 기술의 기초를 형성합니다.

9
임의의 숲에서 지식 얻기
임의의 숲은 블랙 박스로 간주되지만 최근에는 임의의 숲에서 어떤 지식을 얻을 수 있다고 생각하고 있었습니까? 가장 명백한 것은 변수의 중요성이며, 가장 간단한 변형에서는 변수의 발생 횟수를 계산하여 수행 할 수 있습니다. 두 번째로 생각한 것은 상호 작용입니다. 나무의 수가 충분히 크면 변수 쌍의 발생 횟수를 테스트 할 수 있다고 생각합니다 …

2
그라디언트 부스팅 트리 및 임의의 포리스트
Friedman이 제안한 그라디언트 트리 부스팅은 의사 결정 트리를 기본 학습자로 사용합니다. 기본 의사 결정 트리를 가능한 한 복잡하게 (완전히 성장) 또는 단순하게 만들어야하는지 궁금합니다. 선택에 대한 설명이 있습니까? 랜덤 포레스트는 의사 결정 트리를 기본 학습자로 사용하는 또 다른 앙상블 방법입니다. 내 이해를 바탕으로, 우리는 일반적으로 각 반복마다 거의 완전히 자란 …

1
조건부 추론 트리와 기존 의사 결정 트리
사람이 (조건 추론 나무 사이의 주요 차이점 설명 할 수 ctree에서 party(같은 전통적인 의사 결정 트리 알고리즘에 비해 R의 패키지) rpartR 인치)? CI 트리가 다른 이유는 무엇입니까? 강점과 약점? 업데이트 : 나는 Chi가 주석에서 언급하는 Horthorn et al의 논문을 보았습니다. 나는 그것을 완벽하게 따라갈 수 없었습니다-누구나 순열을 사용하여 변수가 어떻게 …

3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
랜덤 포레스트 튜닝에 대한 실질적인 질문
내 질문은 랜덤 포레스트에 관한 것입니다. 이 아름다운 분류기의 개념은 나에게 분명하지만 여전히 실제적인 사용법 질문이 많이 있습니다. 불행히도, 나는 RF에 대한 실용적인 가이드를 찾지 못했습니다 (Geoffrey Hinton의 "제한된 Boltzman 기계 훈련을위한 실용 가이드"와 같은 것을 찾고 있었지만 임의의 숲)! 실제로 RF를 어떻게 튜닝 할 수 있습니까? 더 많은 수의 …

3
randomForest :: getTree ()에서 실제로 샘플 트리를 그리는 방법은 무엇입니까? [닫은]
누구나 실제로 몇 가지 샘플 트리 를 플롯하는 방법에 대한 라이브러리 또는 코드 제안이 있습니다. getTree(rfobj, k, labelVar=TRUE) (예를 들어, 당신 이이 작업을 수행하지 않아야한다는 것을 알고 있습니다. RF는 블랙 박스 등입니다.) 시각적으로 나무가 온전한 지 확인하여 변수가 반 직관적으로 작동하는지 확인하고, 조정 / 조합 / 분산 / 변환, 확인이 …

3
편차 란 무엇입니까? (특히 CART / rpart에서)
"차이"란 무엇이며 어떻게 계산되며 통계의 다른 필드에서 어떻게 사용됩니까? 특히, 나는 개인적으로 CART에서의 사용과 R에서의 rpart에서의 구현에 관심이 있습니다. 위키 기사가 다소 부족한 것으로 보이며 귀하의 통찰력이 가장 환영받을 것이기 때문에 이것을 요구 하고 있습니다.
45 r  cart  rpart  deviance 

4
불균형 데이터에 대한 의사 결정 트리 교육
데이터 마이닝을 처음 사용하고 있으며 불균형이 심한 데이터 세트에 대해 의사 결정 트리를 훈련하려고합니다. 그러나 예측 정확도가 좋지 않습니다. 데이터는 코스를 공부하는 학생들로 구성되며 클래스 변수는 취소됨 또는 현재의 두 값을 갖는 코스 상태입니다. 나이 민족 성별 코스 ... 코스 상태 데이터 세트에는 Withdrawn보다 Current 인 인스턴스가 더 많습니다. 철회 …

3
의사 결정 트리가 계산 비용이 많이 드는 이유는 무엇입니까?
에서 R의 응용 프로그램과 통계 학습에 대한 소개 , 저자는 피팅 것을 쓰기 의사 결정 트리 것은 매우 빠르고, 그러나 이것은 나에게 이해가되지 않습니다. 알고리즘은 최적의 분할을 찾기 위해 모든 기능을 수행하고 가능한 모든 방식으로 분할해야합니다. 관측치 가 숫자 피처의 경우 각 피처에 대해 분할 이 발생할 수 있습니다 .nnnnnn …
38 cart 

6
100 % 정확도 결정 트리를 얻는 이유는 무엇입니까?
의사 결정 트리의 정확도가 100 %입니다. 내가 무엇을 잘못하고 있지? 이것은 내 코드입니다. import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train …


1
부스팅의 상대 변수 중요도
Gradient Boosted Trees에서 상대 변수 중요성이 계산되는 방법에 대한 설명을 찾고 있습니다. 측정 값은 변수가 분할을 위해 선택된 횟수, 각 분할의 결과로 모델의 제곱 개선에 의해 가중치가 부여되고 모든 트리에서 평균화 됩니다. [ Elith et al. 2008, 회귀 트리 향상을위한 작업 가이드 ] 그리고 그것은 덜 추상적입니다. 나는2j^( T) = …

3
랜덤 포레스트는 특이 치에 어떻게 민감하지 않습니까?
I는 다음과 같은 몇 가지 소스에서 읽은 이 한 임의의 숲 (예를 들어, 로지스틱 회귀 및 기타 ML 방법이하는 방식) 이상치에 민감하지 않은 것을. 그러나 두 가지 직관은 그렇지 않다고 말합니다. 의사 결정 트리가 구성 될 때마다 모든 포인트가 분류되어야합니다. 즉, 특이 치조차도 분류되므로 부스팅 중에 선택한 의사 결정 트리에 …

1
GBM 매개 변수에 대한 유용한 지침은 무엇입니까?
GBM을 사용하여 매개 변수를 테스트하는 데 유용한 지침 (예 : 상호 작용 깊이, Minchild, 샘플 속도 등)은 무엇입니까? 70 ~ 100 개의 기능, 인구가 200,000 명이고 상호 작용 깊이 3과 4를 테스트하려고한다고 가정 해 보겠습니다. 어떤 매개 변수 조합이 어떤 샘플을 가장 잘 보유하는지 확인하려면 몇 가지 테스트를 수행해야합니다. 이 …

4
CART를 사용할 때 '가변 중요성'을 측정 / 순위 지정하는 방법은 무엇입니까? (특히 R의 {rpart}를 사용하여)
rpart (R)를 사용하여 CART 모델 (특히 분류 트리)을 작성할 때 모델에 도입 된 다양한 변수의 중요성을 아는 것이 종종 흥미 롭습니다. 따라서 제 질문은 CART 모델에 참여하는 변수의 변수 중요도를 평가 / 측정하기 위해 어떤 일반적인 측정이 있습니까? R을 사용하여 어떻게 계산할 수 있습니까 (예 : rpart 패키지를 사용하는 경우) …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.