데이터를 다시 섞어 야합니까?

우리는 획득하기에 꽤 비싼 생물학적 샘플을 가지고 있습니다. 이러한 샘플을 일련의 테스트를 통해 예측 모델을 작성하는 데 사용되는 데이터를 생성했습니다. 이를 위해 샘플을 훈련 (70 %) 및 테스트 (30 %) 세트로 나누었습니다. 우리는 성공적으로 모델을 만들고 테스트 세트에 적용하여 성능이 "최적"이 아님을 발견했습니다. 실험가들은 이제 더 나은 모델을 만들기 위해 생물학적 테스트를 개선하려고합니다. 새로운 샘플을 얻을 수없는 경우 샘플을 다시 섞어서 새로운 교육 및 검증 세트를 만들거나 원래 부서에 충실하도록 제안하십시오. (우리는 부서가 문제가 있음을 나타내는 징후가 없습니다).

— 데이비드 동
소스

데이터를 어떻게 나누었습니까? 손으로 또는 다른 방법으로 무작위로? 사실, "성공적으로 모델을 만들었습니다"에 대한 부분은 문제의 많은 부분입니다. 값 비싼 일을하기 전에, 적절한 유형의 모델을 사용하고 있는지, 훈련 데이터를 과적 합하고, 예측하려는 것에 대한 적절한 데이터가 있는지 확인해야합니다.

— Wayne

BTW, "성공적으로 모델을 만들기"전에 냉소 모드를 켜는 것을 잊었습니다

— DavidDong

홀드 아웃 샘플을 이미 사용하고 있으므로 모든 모델이 피처 간 동일한 관계를 고려할 수 있도록 샘플을 유지하고 동일한 교육 샘플에서 새 모델을 작성해야한다고 말합니다. 또한 기능 선택을 수행하는 경우 이러한 필터링 단계 전에 샘플을 제거해야합니다. 즉, 기능 선택이 교차 유효성 검사 루프에 포함되어야합니다.

참고로 모델 선택을위한 0.67 / 0.33 분할보다 더 강력한 방법, 즉 k- 폴드 크로스 밸리데이션 또는 Leave-one-out이 있습니다. 참조 예를 들어, 통계 학습의 요소 (§7.10, PP. 241-248), www.modelselection.org 또는 모델 선택에 대한 교차 검증 절차의 조사 Arlot 및 Celisse으로는 (고급 수학 배경이 필요 참조).

— chl
소스