«random-forest» 태그된 질문

랜덤 포레스트는 많은 의사 결정 트리의 출력을 결합하는 것을 기반으로하는 기계 학습 방법입니다.


1
랜덤 포리스트 결과가 왜 이렇게 가변적입니까?
두 그룹 사이에서 샘플을 분류하는 임의의 포리스트 기능을 테스트하려고합니다. 분류에 사용되는 54 개의 샘플과 다양한 변수가 있습니다. 내가 5 만 그루의 나무를 사용하는 경우에도 가방 외부 (OOB) 추정치가 서로 5 % 정도 차이가 나는 이유가 궁금합니다. 이것이 부트 스트랩이 도움이 될 수있는 것입니까?

1
시계열 예측을위한 랜덤 포레스트 회귀
제지 공장의 성능을 예측하기 위해 RF 회귀를 사용하려고합니다. 나는 기계 (종이 생산, 기계가 끌어 낸 전력)의 성능뿐만 아니라 입력 (속도 및 목재 펄프의 양 등 ...)에 대한 분 단위 데이터를 가지고 있으며 10 분을 예측하려고합니다. 성능 변수에 앞서. 12 개월의 데이터를 얻었으므로 훈련 세트의 경우 11 개월과 테스트의 마지막 달로 …

3
RBF SVM 사용 사례 (로지스틱 회귀 및 임의 포리스트)
지원 벡터 기계 와 방사형 기본 기능 커널은 범용이 분류를 감독이다. 이러한 SVM에 대한 이론적 기초와 장점을 알고 있지만 이들이 선호되는 방법에 대해서는 알지 못합니다. 그렇다면 RBF SVM이 다른 ML 기술보다 우월한 문제가 있습니까? (점수 또는 기타 견고성, 시작하기 쉬움, 해석 가능성 등) 기본 접근 방식은 로지스틱 회귀 (아마도 일부 …

1
랜덤 포레스트를 사용한 모델링에는 교차 검증이 필요합니까?
내가 본 한, 이것에 대한 의견은 다른 경향이 있습니다. 모범 사례는 특히 교차 검증을 사용하여 지시 할 것입니다 (특히 동일한 데이터 세트에서 다른 알고리즘과 RF를 비교하는 경우). 반면, 원본 출처는 모델 훈련 중에 OOB 오류가 계산된다는 사실은 테스트 세트 성능의 지표로 충분하다고 명시하고 있습니다. 비교적 최근 대화에서 Trevor Hastie조차도 "임의의 …

1
랜덤 포레스트 vs Adaboost
논문 Random Forests (Breiman, 1999)의 7 장 에서 저자는 "Adaboost는 랜덤 포레스트"라고 추측합니다. 누구든지 이것을 증명하거나 반증 했습니까? 이 게시물 1999 년을 증명하거나 반증하기 위해 무엇을 했습니까?

1
랜덤 포레스트 확률 론적 예측 대 다수 투표
Scikit은 왜 (1.9.2.1. 랜덤 포레스트)에 대한 설명없이 모델 집계 기술에 대한 다수 투표 대신 확률 론적 예측 을 사용 하는 것으로 보입니다 . 이유에 대한 명확한 설명이 있습니까? 또한 Random Forest bagging에 사용될 수있는 다양한 모델 집계 기술에 대한 좋은 논문이나 리뷰 기사가 있습니까? 감사!


2
R randomForests에서 분류 임계 값을 변경하는 방법은 무엇입니까?
모든 종 분포 모델링 문헌은 확률 (예를 들어, 랜덤 포레스트)을 출력하는 모델을 사용하여 종의 존재 유무를 예측할 때 실제로 존재 또는 부재로 종을 분류 할 수있는 임계치 확률의 선택이 중요하며 항상 기본값 인 0.5를 사용하지는 않습니다. 이것에 대한 도움이 필요합니다! 내 코드는 다음과 같습니다. library(randomForest) library(PresenceAbsence) #build model RFfit <- …

2
randomForest 모델의 캐럿 변수
패키지가 varImp있는 randomForest 모델 에서 함수가 어떻게 작동 하는지 이해하는 데 어려움을 겪고 caret있습니다. 아래 예제에서 var3 기능은 caret의 varImp함수를 사용하여 중요도가 0 이지만 기본 randomForest 최종 모델은 var3 기능에 대해 0이 아닌 중요도가 없습니다. 왜 이런 경우입니까? require(randomForest) require(caret) rf <- train(x, y, method = "rf", trControl = trainControl(method …
10 r  caret  random-forest 

1
ARIMA 모델의 관측치 48에서 혁신적인 특이 치를 어떻게 통합합니까?
데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
작은 n, 큰 p 문제에서 트리 기반 앙상블 방법으로 제한합니까?
랜덤 포레스트 (Random Forest)와 같은 트리 기반 앙상블 방법 및 후속 파생물 (예 : 조건부 포레스트)은 모두 상대적 변수의 중요성을 식별하기 위해 소위 "작은 n , 큰 p "문제에 유용 할 수 있습니다 . 실제로, 이것은 사실 인 것처럼 보이지만 내 질문은이 능력을 얼마나 멀리 가질 수 있습니까? 30 개의 …

1
randomForest 및 변수 중요도 버그?
rfobject$importance와 importance(rfobject)MeanDecreaseAccuracy 열에서 차이를 얻지 못합니다. 예: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor …

4
R에서 변수 / 기능 선택을 수행하기 위해 교차 검증을 사용하는 방법이 있습니까?
약 70 개의 변수가있는 데이터 세트가 있습니다. 내가 찾고있는 것은 CV를 사용하여 다음과 같은 방식으로 가장 유용한 변수를 찾는 것입니다. 1) 20 개의 변수를 임의로 선택합니다. 2) stepwise/ LASSO/ lars/ etc를 사용 하여 가장 중요한 변수를 선택하십시오. 3) ~ 50x를 반복하고 어떤 변수가 가장 자주 선택 (제거되지 않음)되었는지 확인합니다. 이것은 …

6
두 개의 다른 랜덤 포레스트 모델의 R- 제곱 비교
R의 randomForest 패키지를 사용하여 샘플보다 더 많은 예측 변수를 사용하여 "와이드"데이터 세트에서 지속적인 결과를 설명하기 위해 랜덤 포레스트 모델을 개발하고 있습니다. 특히, 하나의 RF 모델을 사용하여 절차에서 중요하다고 생각하는 ~ 75 개의 예측 변수를 선택할 수 있습니다. 이전에 여기에 게시 된 접근 방식을 사용하여 해당 모델이 예약 된 테스트 세트의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.