심각하게 불균형 한 데이터를 작업 중입니다. 문헌에서, 리샘플링 (과다 또는 과소 샘플링)을 사용하여 데이터를 재조정하기 위해 여러 방법이 사용됩니다. 두 가지 좋은 접근 방식은 다음과 같습니다.
ADASYN은 적응성이 뛰어나고 멀티 클래스 문제로 쉽게 확장 할 수 있기 때문에 ADASYN을 구현했습니다.
내 질문은 ADASYN (또는 다른 오버 샘플링 방법)으로 생성 된 오버 샘플링 된 데이터를 테스트하는 방법입니다. 언급 된 두 논문에서 그들이 어떻게 실험을 수행했는지는 확실하지 않습니다. 두 가지 시나리오가 있습니다.
1- 전체 데이터 세트를 오버 샘플링 한 다음이를 훈련 및 테스트 세트 (또는 교차 검증)로 분할합니다.
2- 원본 데이터 세트를 분할 한 후 트레이닝 세트에서만 오버 샘플링을 수행하고 원래 데이터 테스트 세트에서 테스트하십시오 (교차 검증으로 수행 할 수 있음).
첫 번째 경우 결과는 오버 샘플링이없는 것보다 훨씬 낫지 만 과적 합이 있는지 걱정됩니다. 두 번째 경우에는 결과가 오버 샘플링이없는 것보다 약간 우수하고 첫 번째 경우보다 훨씬 나쁩니다. 그러나 두 번째 경우의 우려는 모든 소수 클래스 샘플이 테스트 세트에 들어가면 오버 샘플링으로 인한 이점이 없다는 것입니다.
이러한 데이터를 테스트하기위한 다른 설정이 있는지 확실하지 않습니다.