내가 R에 (회귀) 임의 숲 모델을 구축하면, 호출은 rf$importance
각 예측 변수에 대한 두 가지 조치로 날을 제공 %IncMSE
하고 IncNodePurity
. %IncMSE
값이 큰 예측 변수가 %IncMSE
값 이 큰 예측 변수보다 더 중요하다는 해석이 더 중요 합니까?
어때요 IncNodePurity
?
내가 R에 (회귀) 임의 숲 모델을 구축하면, 호출은 rf$importance
각 예측 변수에 대한 두 가지 조치로 날을 제공 %IncMSE
하고 IncNodePurity
. %IncMSE
값이 큰 예측 변수가 %IncMSE
값 이 큰 예측 변수보다 더 중요하다는 해석이 더 중요 합니까?
어때요 IncNodePurity
?
답변:
% IncMSE는 가장 강력하고 유익한 측정법입니다. 변수 j가 순열 (값이 무작위로 섞임) 된 결과 예측값 (bag-CV로 추정)의 mse가 증가합니다.
숫자가 클수록 중요
IncNodePurity는 최상의 분할에 의해 선택되는 손실 기능과 관련이 있습니다. 손실 함수는 회귀 분석의 경우 mse이며 분류의 경우 gini-impurity입니다. 보다 유용한 변수는 노드 순도의 증가, 즉 노드 간 '분산'이 높고 인트라 노드 '분산'이 작은 분할을 찾는 것입니다. IncNodePurity는 바이어스되며 % IncMSE 계산의 추가 계산 시간이 허용되지 않는 경우에만 사용해야합니다. % IncMSE를 계산하는 데 ~ 5-25 %의 추가 시간 만 소요되므로 거의 발생하지 않습니다.