임의의 숲에서 변수의 중요도 측정

40

나는 회귀를 위해 임의의 숲을 가지고 놀았으며 두 가지 중요한 측정 수단의 의미와 해석 방법을 정확하게 파악하는 데 어려움을 겪고 있습니다.

importance()함수는 각 변수에 대한 두 값을 제공한다 : %IncMSE및 IncNodePurity. 이 두 값에 대한 간단한 해석이 있습니까?

의 경우 IncNodePurity특히,이 단순히 양이 그 변수의 제거 다음 RSS 증가입니까?

r machine-learning random-forest importance

— dcl
소스

1

봤어 ?importance? 두 가지 측정의 의미에 대한 설명이 있습니다.

— Nick Sabbe

2

@ Nick Sabbe는 내 머리를 감싸려고합니다. 그들에 대한 직관적 인 해석이 있는지 궁금합니다.

— dcl

42

첫 번째 예측 변수는 다음과 같이 '해석'될 수 있습니다. 현재 모형에서 예측 변수가 중요한 경우 해당 예측 변수에 다른 값을 무작위로 지정하지만 '실제적으로'(예 : 데이터 집합에 대해이 예측 변수 값을 치환하는 경우) 부정적인 영향을 미칩니다. 예측시, 즉 : 하나의 변수를 제외하고 동일한 데이터로부터 예측하기 위해 동일한 모델을 사용하는 것은 더 나쁜 예측을 제공해야한다.

따라서 원래 데이터 세트와 '퍼뮤 테이션 된'데이터 세트를 사용하여 예측 측정 (MSE)을 수행하고 어떻게 든 비교합니다. 한 가지 방법은, 특히 원래의 MSE가 항상 더 작을 것으로 예상되기 때문에 차이가있을 수 있습니다. 마지막으로 값을 변수와 비교할 수 있도록 크기가 조정됩니다.

두 번째 분할의 경우 : 각 분할에서이 분할이 노드 불순물을 감소시키는 정도를 계산할 수 있습니다 (회귀 트리의 경우 실제로 분할 전후 RSS의 차이). 이것은 해당 변수의 모든 분할, 모든 트리에서 합산됩니다.

참고 : 잘 읽으면 Hastie, Tibshirani 및 Friedman 의 통계 학습 요소입니다 ...

— 닉 사브
소스

3

건배, 나는 실제로 그 책을 지금 열었습니다 :)

— dcl

RSS는 무엇을 의미합니까?

— DavideChicco.it

RSS는 잔여 제곱합

— Barker

10

R의 randomForest 패키지에 구현 된 랜덤 포레스트 중요도 메트릭은 상관 된 예측 변수의 중요도가 낮다는 단점이 있습니다.

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf

경험적 p 값과 잘못된 발견 비율을 추정하는 접근 방식을 구현하는 CRAN에서 무작위 포리스트의 수정 된 구현이 있습니다.

http://cran.r-project.org/web/packages/pRF/index.html

— 앙 쿠르 차크라 바시
소스

1

caret::train(method="rf", importance = TRUE, ...)?? 와 같은 캐럿 패키지와 함께 randomForest를 사용하는 경우 변수 중요도의 다른 출력을 설명합니까 ?

— Agile Bean