randomForest 구현은 대체로 샘플링 할 때도 관측치 수를 넘어서 샘플링을 허용하지 않습니다. 왜 이런거야?
잘 작동합니다.
rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE)
rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE)
내가하고 싶은 것 :
rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE)
Error in randomForest.default(m, y, ...) :
sampsize can not be larger than class frequency
계층화 된 샘플이없는 유사한 오류 :
rf <- randomForest(Species ~ ., iris, sampsize=151, replace=TRUE)
Error in randomForest.default(m, y, ...) : sampsize too large
두 경우 모두 replace = TRUE가 주어질 때 부트 스트랩 샘플을 가져 오는 방법을 기대했기 때문에이 한계를 기대하지 않았습니다.
저의 목표는 비교적 희귀 한 클래스에서 충분히 큰 샘플을 추출하기 위해 이것을 계층화 된 샘플링 옵션과 함께 사용하는 것입니다.
실제 이유가 무엇인지 확실하지 않지만 부트 스트랩 샘플은 일반적으로 원래 샘플과 크기가 동일 하므로이 동작은 부트 스트랩 샘플을 요구한다고 주장하는 것과 완벽하게 일치합니다.
—
joran
글쎄, 그것은 문서의 선택이 아니라 내 말의 선택이었다. 그러나 당신의 요점은 잘 이해되었다. 그래도 배포판의 균형을 다시 잡으려고 할 때 불편한 점이 있는데 이것이 왜 적용에 도움이되는 제한이되는지 이유를 모르겠습니다.
—
cohoz December