R의 randomForest 패키지를 사용하여 샘플보다 더 많은 예측 변수를 사용하여 "와이드"데이터 세트에서 지속적인 결과를 설명하기 위해 랜덤 포레스트 모델을 개발하고 있습니다.
특히, 하나의 RF 모델을 사용하여 절차에서 중요하다고 생각하는 ~ 75 개의 예측 변수를 선택할 수 있습니다.
이전에 여기에 게시 된 접근 방식을 사용하여 해당 모델이 예약 된 테스트 세트의 실제 결과를 얼마나 잘 예측하는지 테스트하고 있습니다 .
... 또는 R :
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
그러나 이제 추가 할 수있는 추가 ~ 25 예측 변수가 있습니다. ~ 100 예측 변수 집합을 사용할 때 R²이 더 높습니다. 이것을 통계적으로 테스트하고 싶습니다. 다시 말해서 ~ 100 예측 변수 집합을 사용할 때 ~ 75 예측 변수를 사용하는 모형 적합보다 데이터 테스트에서 모형 테스트가 훨씬 더 좋습니다. 즉, RF 모델을 테스트 한 R²은 전체 데이터 셋에 맞는 RF 모델을 테스트 한 결과, R2는 축소 된 데이터 셋에 대한 RF 모델을 테스트 한 R²보다 훨씬 높습니다.
파일럿 데이터이므로 25 명의 예측 변수를 추가로 얻는 데 많은 비용이 들기 때문에 더 큰 후속 연구에서 이러한 예측 변수를 측정하기 위해 비용을 지불해야하는지 알아야합니다.
나는 어떤 종류의 리샘플링 / 순열 접근법을 생각하려고하지만 아무것도 생각하지 않습니다.