임의의 포리스트 모델을 실행하기 위해 누군가로부터 R 스크립트를 받았습니다. 직원 데이터로 수정하고 실행했습니다. 우리는 자발적인 분리를 예측하려고합니다.
다음은 몇 가지 추가 정보입니다. 분류 모델은 0 = 직원 유지, 1 = 직원 종료, 현재 12 개의 예측 변수 만보고 있습니다. 데이터의 용어는 "불균형"입니다. 총 레코드 세트의 %
다양한 mtry 및 ntree 선택으로 모델을 실행하지만 아래에 설정되어 있습니다. 아웃 오브 밴드 내 생각은 6.8 %가 양호하지만 혼란 매트릭스는 에러율이 매우 높은 92.79 %로이기 때문에 용어를 예측하는 서로 다른 이야기를하는 것 바로 내가 의지하고이 모델 때문에 사용할 수 없습니다 가정에서 암 I 항 예측에 대한 높은 오류율? 또는 RF를 사용하고 항을 예측하기 위해 더 작은 오류율을 얻기 위해 할 수있는 일이 있습니까?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908