randomForest
새로운 사례의 클래스를 예측하는 응용 프로그램에서 사용하려는 훌륭한 분류 모델이 있습니다. 새 사례에는 필연적으로 누락 된 값이 있습니다. NA에게는 예측이 작동하지 않습니다. 그러면 어떻게해야합니까?
data(iris)
# create first the new case with missing values
na.row<-45
na.col<-c(3,5)
case.na<-iris[na.row,]
case.na[,na.col]<-NA
iris.rf <- randomForest(Species ~ ., data=iris[-na.row,])
# print(iris.rf)
myrf.pred <- predict(iris.rf, case.na[-5], type="response")
myrf.pred
[1] <NA>
나는 노력했다 missForest
. 원래 데이터와 새 사례를 결합하여 missForest
로 옮겼으며 새 사례에서 NA의 가치를 전가했습니다. 그래도 너무 무거운 컴퓨팅.
data.imp <- missForest(data.with.na)
그러나 rf-model을 사용하여 결 측값이있는 새로운 사례를 예측할 수있는 방법이 있어야합니다.
나는 그 생각 파티 누락 된 값으로 더 좋은 패키지 상품
—
시몬
친애하는 @Simone,
—
hermo
party
테스트 세트에서 패키지가 NA와 어떻게 작동합니까? party
매뉴얼이나 예제 에서 전가의 흔적을 찾을 수 없었습니다 .
@ hermo는 파티의 논문 citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.92.9930을 보려고 합니다. 알고리즘이 CART처럼 작동하는 것 같습니다-대리 분할을 찾습니다.
—
Simone
randomForest
R 의 패키지에는 설명 된 대치 방법 만 있습니다. 비슷한 환경에 머 무르려면gbm
새 데이터에서 누락 된 값을 처리하는 방법이 다소 매끄 럽습니다 (완벽하지는 않지만 유용합니다).