기계 학습 연구의 유효성 검사에 대한 특정 질문이 있습니다.
아시다시피, 머신 러닝 체제는 연구원들에게 훈련 데이터에 대한 모델을 훈련시키고 검증 세트에 따라 후보 모델 중에서 선택하고 테스트 세트에 대한 정확성을보고하도록 요청합니다. 매우 엄격한 연구에서 테스트 세트는 한 번만 사용할 수 있습니다. 그러나 논문을 출판하거나 제출하기 전에 테스트 정확도가 최신 결과보다 나올 때까지 성능을 개선해야하기 때문에 연구 시나리오가 될 수 없습니다.
이제 문제가 왔습니다. 50 %가 최첨단의 결과이며, 내 모델이 일반적으로 평균 50-51의 정확도를 달성 할 수 있다고 가정 해 보겠습니다.
그러나 필자의 최상의 검증 정확도 (52 %)는 테스트 정확도가 매우 낮습니다 (예 : 49 %). 그런 다음 유효성 검사를 더 이상 개선 할 수 없으면 전체 성능으로 49 %를보고해야합니다. 이것은 실제로 문제를 연구하지 못하게하지만 동료들에게는 중요하지 않습니다. 왜냐하면 그들은 52 % acc를 보지 못하기 때문에 이상치라고 생각합니다.
그래서 사람들은 보통 그들의 연구에서 어떻게합니까?
동일한 상황이 여전히 발생할 수 있기 때문에 ps k- 폴드 유효성 검사는 도움이되지 않습니다.