우리는 획득하기에 꽤 비싼 생물학적 샘플을 가지고 있습니다. 이러한 샘플을 일련의 테스트를 통해 예측 모델을 작성하는 데 사용되는 데이터를 생성했습니다. 이를 위해 샘플을 훈련 (70 %) 및 테스트 (30 %) 세트로 나누었습니다. 우리는 성공적으로 모델을 만들고 테스트 세트에 적용하여 성능이 "최적"이 아님을 발견했습니다. 실험가들은 이제 더 나은 모델을 만들기 위해 생물학적 테스트를 개선하려고합니다. 새로운 샘플을 얻을 수없는 경우 샘플을 다시 섞어서 새로운 교육 및 검증 세트를 만들거나 원래 부서에 충실하도록 제안하십시오. (우리는 부서가 문제가 있음을 나타내는 징후가 없습니다).
1
데이터를 어떻게 나누었습니까? 손으로 또는 다른 방법으로 무작위로? 사실, "성공적으로 모델을 만들었습니다"에 대한 부분은 문제의 많은 부분입니다. 값 비싼 일을하기 전에, 적절한 유형의 모델을 사용하고 있는지, 훈련 데이터를 과적 합하고, 예측하려는 것에 대한 적절한 데이터가 있는지 확인해야합니다.
—
Wayne
BTW, "성공적으로 모델을 만들기"전에 냉소 모드를 켜는 것을 잊었습니다
—
DavidDong