답변:
첫 번째 예측 변수는 다음과 같이 '해석'될 수 있습니다. 현재 모형에서 예측 변수가 중요한 경우 해당 예측 변수에 다른 값을 무작위로 지정하지만 '실제적으로'(예 : 데이터 집합에 대해이 예측 변수 값을 치환하는 경우) 부정적인 영향을 미칩니다. 예측시, 즉 : 하나의 변수를 제외하고 동일한 데이터로부터 예측하기 위해 동일한 모델을 사용하는 것은 더 나쁜 예측을 제공해야한다.
따라서 원래 데이터 세트와 '퍼뮤 테이션 된'데이터 세트를 사용하여 예측 측정 (MSE)을 수행하고 어떻게 든 비교합니다. 한 가지 방법은, 특히 원래의 MSE가 항상 더 작을 것으로 예상되기 때문에 차이가있을 수 있습니다. 마지막으로 값을 변수와 비교할 수 있도록 크기가 조정됩니다.
두 번째 분할의 경우 : 각 분할에서이 분할이 노드 불순물을 감소시키는 정도를 계산할 수 있습니다 (회귀 트리의 경우 실제로 분할 전후 RSS의 차이). 이것은 해당 변수의 모든 분할, 모든 트리에서 합산됩니다.
참고 : 잘 읽으면 Hastie, Tibshirani 및 Friedman 의 통계 학습 요소입니다 ...
R의 randomForest 패키지에 구현 된 랜덤 포레스트 중요도 메트릭은 상관 된 예측 변수의 중요도가 낮다는 단점이 있습니다.
http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf
경험적 p 값과 잘못된 발견 비율을 추정하는 접근 방식을 구현하는 CRAN에서 무작위 포리스트의 수정 된 구현이 있습니다.
caret::train(method="rf", importance = TRUE, ...)
?? 와 같은 캐럿 패키지와 함께 randomForest를 사용하는 경우 변수 중요도의 다른 출력을 설명합니까 ?
?importance
? 두 가지 측정의 의미에 대한 설명이 있습니다.