1000 개의 기능을 가진 두 개의 알려진 그룹으로 분할 된 마이크로 어레이 데이터 세트에서 분류 자로 임의 포리스트 알고리즘을 적용하고 있습니다. 처음 실행 한 후에는 기능의 중요성을 살펴보고 5, 10 및 20 개의 가장 중요한 기능으로 트리 알고리즘을 다시 실행합니다. 모든 기능의 상위 10 및 20에서 오류율의 OOB 추정치는 1.19 %이며 상위 5 개의 기능은 0 %입니다. 이것은 나에게 반 직관적 인 것처럼 보이므로 내가 누락되었거나 잘못된 메트릭을 사용하고 있는지 설명 할 수 있는지 궁금합니다.
ntree = 1000, nodesize = 1 및 mtry = sqrt (n) 인 R의 randomForest 패키지를 사용하고 있습니다.