임의의 매개 변수 설정을 사용하여 밤새 4500 개의 임의 포리스트를 실행했습니다.
회귀 문제 Ysignal = x1^2+sin(x2*pi) + x3 * x4 + x5
라도 x
정규 분포로부터 독립 샘플링, 평균 SD = 1 = 1
Ytotal = Ysignal + Yerror
어디 Yerror = rnorm(n.observations,sd=sd(Ysignal))*noise.factor
theoretical.explainable.variance"TEV" = var(Ysignal= / var(Ytotal)
randomForest.performance = explained.variance(OOB cross-validation) / TEV
회귀 문제에서 데이터 세트를 샘플링했으며 추가 된 노이즈
n.obs
는 n.extra.dummy.variables
1에서 20 사이의 1000에서 5000 사이 의 난수였습니다.
ntree
항상 1000
sample_replacement
항상 true
mtry
5에서 25 n.obs
noise.factor
사이이며 0에서 9 사이로 제한됩니다.
samplesize.ratio
10 %에서 100 % 사이의 난수, 각 부트 스트랩의 비율 크기
모든 모델은 다음과 같이 훈련되었습니다 rfo = randomForest(x=X, y=Ytotal, <more args>)
는 50 % 미만일 때 낮아 지고 50 %보다 높으면 감소 할 때 일반적으로 증가율 randomForest.performance
의 가장 높은 부분을 설명 할 수 있습니다.TEV
samplesize
TEV
TEV
따라서, randomForest-modelfit
예를 들어 15 % 의 보고서가 OOB-CV에 의한 분산을 설명하고 이것이 당신에게 적합한 모델 정밀도라면 sampsize
, 주어진 관측치의 3 분의 1 로 낮추어 성능을 약간 높일 수 ntree > 1000
있습니다.
사기 : 매우 시끄러운 데이터의 경우 최대 크기의 나무를 키워서 치우침을 낮추는 것보다 나무를 상관시키는 것이 좋습니다.