모든 종 분포 모델링 문헌은 확률 (예를 들어, 랜덤 포레스트)을 출력하는 모델을 사용하여 종의 존재 유무를 예측할 때 실제로 존재 또는 부재로 종을 분류 할 수있는 임계치 확률의 선택이 중요하며 항상 기본값 인 0.5를 사용하지는 않습니다. 이것에 대한 도움이 필요합니다! 내 코드는 다음과 같습니다.
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
이로부터 나는 예측 된 확률로부터 존재를 분류하기 위해 사용하고자하는 임계 값이 기본값 0.5가 아니라 0.7이라고 결정했다. 이 정보로 무엇을해야하는지 완전히 이해하지 못했습니다. 출력 맵을 작성할 때이 임계 값을 사용합니까? 연속 확률로 매핑 된 출력을 쉽게 만든 다음 현재 값이 0.7보다 큰 값을 가진 항목을 다시 분류하고 <0.7이 아닌 값을 다시 분류하면됩니다.
또는 컷오프 매개 변수를 사용하여이 정보를 가져와 randomForests 모델링을 다시 실행 하시겠습니까? 컷오프 매개 변수는 정확히 무엇을 수행합니까? 결과 투표가 변경됩니까? (현재는 "중대"라고 말합니다). 이 차단 매개 변수를 어떻게 사용합니까? 설명서를 이해하지 못합니다! 감사!