rpart (R)를 사용하여 CART 모델 (특히 분류 트리)을 작성할 때 모델에 도입 된 다양한 변수의 중요성을 아는 것이 종종 흥미 롭습니다.
따라서 제 질문은 CART 모델에 참여하는 변수의 변수 중요도를 평가 / 측정하기 위해 어떤 일반적인 측정이 있습니까? R을 사용하여 어떻게 계산할 수 있습니까 (예 : rpart 패키지를 사용하는 경우)
예를 들어, 여기에 솔루션을 보여줄 수 있도록 작성된 더미 코드가 있습니다. 이 예제는 변수 x1과 x2가 "중요"한 것이 분명하지만 어떤 의미에서는 x1이 x2보다 더 중요하다는 것을 알 수 있도록 구성되었습니다 (x1은 더 많은 경우에 적용해야하므로 데이터 구조에 더 많은 영향을 미치기 때문에, x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(참조 항상 환영합니다)