불균형 테스트 데이터 세트가 있습니다. 양수 세트는 100 건으로 구성되고 음수 세트는 1500 건으로 구성됩니다. 훈련 측면에는 더 큰 후보 풀이 있습니다. 긍정적 훈련 세트는 1200 건이고 부정적인 훈련 세트는 12000 건입니다. 이런 종류의 시나리오에는 몇 가지 선택이 있습니다.
1) 전체 교육 세트에 가중치 SVM 사용 (P : 1200, N : 12000)
2) 표본 훈련 세트 (P : 1200, N : 1200)를 기반으로 SVM을 사용하여 1200 개의 음성 사례가 12000 사례에서 샘플링됩니다.
어떤 접근 방식이 더 나은지 결정하는 데 이론적 인 지침이 있습니까? 테스트 데이터 세트가 불균형이기 때문에, 불균형 훈련 세트도 사용해야합니까?
1
다음 질문을 확인하십시오. "희귀 한"이벤트를 통한지도 학습 및 SVM으로 불균형 멀티 클래스 데이터 세트를 처리하는 최상의 방법 . 도움이 되셨습니까? 솔직히, 당신의 질문은 다소 비슷하게 들립니다.).
—
steffen