컴퓨터 과학 배경을 가지고 있지만 인터넷에서 문제를 해결하여 데이터 과학을 가르치려고합니다.
나는 지난 몇 주 동안이 문제를 연구 해 왔습니다 (약 900 행과 10 기능). 처음에는 로지스틱 회귀를 사용했지만 이제는 임의의 포리스트로 전환했습니다. 훈련 데이터에서 임의의 포리스트 모델을 실행하면 auc (> 99 %)의 값이 실제로 높아집니다. 그러나 테스트 데이터에서 동일한 모델을 실행하면 결과가 좋지 않습니다 (정확도는 약 77 %). 이로 인해 훈련 데이터가 적합하지 않다고 생각합니다.
임의의 포리스트에서 과잉 맞춤 방지에 대한 모범 사례는 무엇입니까?
r과 rstudio를 개발 환경으로 사용하고 있습니다. 내가 사용하고 randomForest
패키지를 모든 매개 변수에 대한 기본값을 수락