scikits-learn에서 Random Forest Regression을 사용하려고합니다. 문제는 테스트 오류가 매우 높다는 것입니다.
train MSE, 4.64, test MSE: 252.25.
내 데이터 모양은 다음과 같습니다. (파란색 : 실제 데이터, 초록색 : 예측 됨) :
훈련에 90 %, 시험에 10 %를 사용하고 있습니다. 이것은 여러 매개 변수 조합을 시도한 후 사용중인 코드입니다.
rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1)
test_mse = mean_squared_error(y_test, rf.predict(X_test))
train_mse = mean_squared_error(y_train, rf.predict(X_train))
print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse))
plot(rf.predict(X))
plot(y)
피팅 개선을위한 가능한 전략은 무엇입니까? 기본 모델을 추출하기 위해 다른 방법이 있습니까? 같은 패턴을 너무 많이 반복 한 후에는 모델이 새로운 데이터로 너무 나쁘게 동작한다는 것은 놀라운 일입니다. 이 데이터를 맞추려고 전혀 희망이 있습니까?