분류 문제에 대해 어떤 모델 교차 검증 유형을 선택해야하는지 궁금합니다. K- 폴드 또는 랜덤 서브 샘플링 (부트 스트랩 샘플링)?
가장 좋은 추측은 훈련에 2/3의 데이터 세트 (~ 1000 개 항목)를 사용하고 검증에 1/3을 사용하는 것입니다.
이 경우 K-fold는 세 번의 반복 (폴드) 만 제공하므로 안정적인 평균 오류를 볼 수 없습니다.
반면에 무작위 서브 샘플링 기능은 마음에 들지 않습니다. 일부 항목은 교육 / 검증 대상으로 선택되지 않으며 일부 항목은 두 번 이상 사용됩니다.
사용 된 분류 알고리즘 : 랜덤 포레스트 및 로지스틱 회귀.