주변에 재생 보스톤 주택 데이터 집합 와 RandomForestRegressor
에 (w / 기본 매개 변수) 나는 이상한 뭔가를 발견, scikit 배우기 : 평균 교차 유효성 검사 점수가 감소 내가 내 교차 검증 전략 등이었다 다음 10 이상으로 주름의 수를 증가로 :
cv_met = ShuffleSplit(n_splits=k, test_size=1/k)
scores = cross_val_score(est, X, y, cv=cv_met)
... num_cvs
다양한 곳 . k-fold CV의 train / test split size 동작을 반영하도록 설정 test_size
했습니다 1/num_cvs
. 기본적으로 k-fold CV와 같은 것을 원했지만 무작위성이 필요했습니다 (따라서 ShuffleSplit).
이 시행을 여러 번 반복 한 다음 평균 점수와 표준 편차를 플로팅했습니다.
크기 k
는 원의 영역으로 표시되며 표준 편차는 Y 축에 있습니다.
꾸준히 증가 시키면 k
(2에서 44로) 점수가 잠깐 증가한 다음, 계속해서 k
(10 배 이상) 꾸준히 감소합니다 ! 어쨌든 더 많은 훈련 데이터로 인해 점수 가 약간 증가 할 것으로 기대합니다 !
최신 정보
절대 오차 를 의미 하도록 채점 기준을 변경하면 예상되는 동작이 나타납니다. 채점은 0에 접근하지 않고 K- 폴드 CV에서 폴드 수가 증가할수록 향상됩니다 (기본값은 ' r2 '와 동일). 기본 점수 측정 항목이 평균 및 STD 측정 항목 에서 폴드 수가 증가함에 따라 성능이 저하되는 이유는 여전히 남아 있습니다.