«random-forest» 태그된 질문

랜덤 포레스트는 많은 의사 결정 트리의 출력을 결합하는 것을 기반으로하는 기계 학습 방법입니다.

1
극도의 무작위 숲은 무작위 숲과 어떻게 다릅니 까?
ER이보다 효율적인 구현입니까 (예 Extreme Gradient Boosting: 그래디언트 부스팅). 실제 관점과의 차이점이 중요합니까? 그것들을 구현하는 R 패키지가 있습니다. 효율성뿐만 아니라 다른 영역에서도 "일반"구현 (R의 RandomForest 패키지)을 극복하는 새로운 알고리즘입니까? 극도의 랜덤 포레스트 http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

1
R- 제곱 값이 모형을 비교하는 데 적합합니까?
자동차 분류 광고 사이트에서 제공되는 가격과 기능을 사용하여 자동차 가격을 예측하기위한 최상의 모델을 식별하려고합니다. 이를 위해 scikit-learn 라이브러리의 몇 가지 모델과 pybrain 및 neurolab의 신경망 모델을 사용했습니다. 지금까지 사용한 접근법은 일부 모델 (기계 학습 알고리즘)을 통해 고정 된 양의 데이터를 실행 하고 scikit-learn 메트릭 모듈로 계산 된 R2R2R^2 값을 비교하는 …

3
SVM 외에 어떤 알고리즘에 기능 확장이 필요합니까?
RandomForest, DecisionTrees, NaiveBayes, SVM (커널 = 선형 및 rbf), KNN, LDA 및 XGBoost와 같은 많은 알고리즘을 사용하고 있습니다. SVM을 제외하고는 모두 매우 빠릅니다. 그때는 기능 확장이 더 빨리 작동해야한다는 것을 알게되었습니다. 그런 다음 다른 알고리즘에 대해서도 동일한 작업을 수행해야하는지 궁금해지기 시작했습니다.


5
R에서 랜덤 포레스트로 분류하는 경우, 불균형 클래스 크기를 어떻게 조정해야합니까?
현재 작업중 인 프로젝트에 대해 다른 분류 방법을 탐색 중이며 랜덤 포레스트 시도에 관심이 있습니다. 나는 갈수록 나 자신을 교육하려고 노력하고 있으며 CV 커뮤니티가 제공하는 도움에 감사하겠습니다. 데이터를 훈련 / 테스트 세트로 나누었습니다. R에서 random forest를 사용한 실험 (randomForest 패키지 사용)에서 나는 작은 클래스에 대해 높은 분류 오류로 어려움을 겪고 …

2
더미 변수의 기능 중요도
더미 변수로 분류 된 범주 형 변수의 기능 중요성을 얻는 방법을 이해하려고합니다. R 또는 h2o 가하는 방식으로 범주 변수를 처리하지 않는 scikit-learn을 사용하고 있습니다. 범주 형 변수를 더미 변수로 분류하면 해당 변수의 클래스마다 별도의 기능 중요도가 있습니다. 내 질문은, 더미 변수의 중요도를 단순히 범주화하여 범주 변수의 중요도 값으로 재결합하는 것이 …

2
출력이 여러 개인 랜덤 포레스트가 가능 / 실용적입니까?
랜덤 포레스트 (RF)는 경쟁적인 데이터 모델링 / 마이닝 방법입니다. RF 모델에는 출력 / 예측 변수라는 하나의 출력이 있습니다. RF를 사용하여 여러 출력을 모델링하는 순진한 접근 방식은 각 출력 변수에 대해 RF를 구성하는 것입니다. 따라서 우리는 N 개의 독립적 인 모델을 가지고 있으며, 출력 변수 사이에 상관 관계가있는 경우 중복 / …

2
임의 포리스트를 사용한 기능 선택
나는 주로 재정적 변수가 많은 데이터 세트 (120 가지 특징, 4k 예제)를 가지고 있으며 상관 관계가 높고 소음이 심합니다 (예 : 기술 지표). 나중에 모델 훈련 (이진 분류)과 함께 사용하기 위해 최대 20-30을 선택하고 싶습니다. - 증가 감소). 기능 순위에 임의 포리스트를 사용하려고 생각했습니다. 재귀 적으로 사용하는 것이 좋습니다? 예를 …


4
낮은 분류 정확도, 다음에 수행 할 작업
그래서 저는 ML 분야의 초보자이며 분류를하려고합니다. 내 목표는 스포츠 이벤트의 결과를 예측하는 것입니다. 나는 몇 가지 역사적 데이터를 수집했으며 이제 분류기를 훈련하려고합니다. 나는 약 1200 개의 샘플을 얻었고, 그중 0.2 개는 테스트 목적으로 분리되었으며 다른 샘플은 다른 분류 기준으로 그리드 검색에 포함되었습니다 (교차 유효성 검사 포함). 나는 선형, rbf 및 …

1
가중 랜덤 포레스트를위한 R 패키지? classwt 옵션?
랜덤 포레스트를 사용하여 매우 불균형 한 데이터 세트의 결과를 예측하려고합니다 (소수 클래스 비율은 약 1 % 이하입니다). 기존의 랜덤 포레스트 알고리즘은 소수 클래스에 특별한주의를 기울이지 않고 전체 오류율을 최소화하므로 불균형 데이터에는 직접 적용 할 수 없습니다. 따라서 소수 민족의 오 분류 (비용에 민감한 학습)에 높은 비용을 할당하고 싶습니다. R 에서 …
16 r  random-forest 


3
'predict.randomForest`는 클래스 확률을 어떻게 추정합니까?
randomForest패키지를 사용할 때 클래스 확률 은 어떻게 추정 predict(model, data, type = "prob")됩니까? 나는 확률을 예측하기 ranger위해 probability = T인수를 사용하여 임의의 숲을 훈련 하는 데 사용했습니다 . ranger설명서에서 다음과 같이 말합니다. Malley et al. (2012). 일부 데이터를 시뮬레이트하고 패키지를 모두 시도하고 매우 다른 결과를 얻었습니다 (아래 코드 참조) 따라서 …

1
lmer 모델에 사용할 다중 비교 방법 : lsmeans 또는 glht?
하나의 고정 효과 (조건)와 두 개의 임의 효과 (대상 내 설계 및 쌍으로 인해 참가자)가있는 혼합 효과 모델을 사용하여 데이터 세트를 분석하고 있습니다. lme4패키지로 모델이 생성되었습니다 exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). 다음으로, 고정 효과 (조건)없이 모형에 대해이 모형의 우도 비 검정을 수행했으며 유의 한 차이가 있습니다. 내 데이터 세트에는 3 가지 조건이 있으므로 다중 …

2
가방 부족 오류로 인해 임의 포리스트에서 CV가 필요하지 않습니까?
나는 임의의 숲에 상당히 익숙합니다. 과거에는, 나는 항상의 정확성을 비교 한 시험 대에 맞게 에 대한 열차 대에 맞는 어떤 overfitting을 감지 할 수 있습니다. 그러나 나는 여기서 그것을 읽었 습니다 . "임의의 포리스트에서는 교차 검증 또는 별도의 테스트 세트가 필요하지 않으므로 테스트 세트 오류를 ​​편견없이 추정 할 수 있습니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.