불균형 데이터 세트에 대한 교육 접근법


16

불균형 테스트 데이터 세트가 있습니다. 양수 세트는 100 건으로 구성되고 음수 세트는 1500 건으로 구성됩니다. 훈련 측면에는 더 큰 후보 풀이 있습니다. 긍정적 훈련 세트는 1200 건이고 부정적인 훈련 세트는 12000 건입니다. 이런 종류의 시나리오에는 몇 가지 선택이 있습니다.

1) 전체 교육 세트에 가중치 SVM 사용 (P : 1200, N : 12000)

2) 표본 훈련 세트 (P : 1200, N : 1200)를 기반으로 SVM을 사용하여 1200 개의 음성 사례가 12000 사례에서 샘플링됩니다.

어떤 접근 방식이 더 나은지 결정하는 데 이론적 인 지침이 있습니까? 테스트 데이터 세트가 불균형이기 때문에, 불균형 훈련 세트도 사용해야합니까?


1
다음 질문을 확인하십시오. "희귀 한"이벤트를 통한지도 학습SVM으로 불균형 멀티 클래스 데이터 세트를 처리하는 최상의 방법 . 도움이 되셨습니까? 솔직히, 당신의 질문은 다소 비슷하게 들립니다.).
steffen

답변:



0

쌍 확장 로지스틱 회귀, ROC 기반 학습, 부스팅 및 배깅 (부트 스트랩 집계), 링크 기반 클러스터 앙상블 (LCE), 베이지안 네트워크, 가장 가까운 중심 분류기, 베이지안 기법, 가중 거친 세트, k-NN

불균형을 처리하기위한 많은 샘플링 방법.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.