임의의 포리스트에서 더 큰 % IncMSE가 더 좋거나 나쁩니 까?


17

내가 R에 (회귀) 임의 숲 모델을 구축하면, 호출은 rf$importance각 예측 변수에 대한 두 가지 조치로 날을 제공 %IncMSE하고 IncNodePurity. %IncMSE값이 큰 예측 변수가 %IncMSE값 이 큰 예측 변수보다 더 중요하다는 해석이 더 중요 합니까?

어때요 IncNodePurity?

답변:


30

% IncMSE는 가장 강력하고 유익한 측정법입니다. 변수 j가 순열 (값이 무작위로 섞임) 된 결과 예측값 (bag-CV로 추정)의 mse가 증가합니다.

  1. 회귀 숲을 키우십시오. OOB-mse를 계산하고 이름을 mse0으로 지정하십시오.
  2. 1에서 j까지 var : j 열의 값을 치환 한 후 OOB-mse (j)를 예측 및 계산
  3. j 번째의 % IncMSE는 (mse (j) -mse0) / mse0 * 100 %입니다.

숫자가 클수록 중요

IncNodePurity는 최상의 분할에 의해 선택되는 손실 기능과 관련이 있습니다. 손실 함수는 회귀 분석의 경우 mse이며 분류의 경우 gini-impurity입니다. 보다 유용한 변수는 노드 순도의 증가, 즉 노드 간 '분산'이 높고 인트라 노드 '분산'이 작은 분할을 찾는 것입니다. IncNodePurity는 바이어스되며 % IncMSE 계산의 추가 계산 시간이 허용되지 않는 경우에만 사용해야합니다. % IncMSE를 계산하는 데 ~ 5-25 %의 추가 시간 만 소요되므로 거의 발생하지 않습니다.

비슷한 질문과 답변

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.