불균형 데이터 세트에 대한 교육 접근법

16

불균형 테스트 데이터 세트가 있습니다. 양수 세트는 100 건으로 구성되고 음수 세트는 1500 건으로 구성됩니다. 훈련 측면에는 더 큰 후보 풀이 있습니다. 긍정적 훈련 세트는 1200 건이고 부정적인 훈련 세트는 12000 건입니다. 이런 종류의 시나리오에는 몇 가지 선택이 있습니다.

1) 전체 교육 세트에 가중치 SVM 사용 (P : 1200, N : 12000)

2) 표본 훈련 세트 (P : 1200, N : 1200)를 기반으로 SVM을 사용하여 1200 개의 음성 사례가 12000 사례에서 샘플링됩니다.

어떤 접근 방식이 더 나은지 결정하는 데 이론적 인 지침이 있습니까? 테스트 데이터 세트가 불균형이기 때문에, 불균형 훈련 세트도 사용해야합니까?

— 비트 질문
소스

1

다음 질문을 확인하십시오. "희귀 한"이벤트를 통한지도 학습 및 SVM으로 불균형 멀티 클래스 데이터 세트를 처리하는 최상의 방법 . 도움이 되셨습니까? 솔직히, 당신의 질문은 다소 비슷하게 들립니다.).

— steffen

7

reddit 의 최근 게시물 에서 datapraxis 의 답변 이 관심을 가질 것입니다.

편집 : 언급 된 논문은 Haibo He, Edwardo A. Garcia, "불균형 데이터로부터 배우기", IEEE 지식 및 데이터 공학에 관한 트랜잭션, pp. 1263-1284, 2009 년 9 월 (PDF)

— 사용자
소스

0

쌍 확장 로지스틱 회귀, ROC 기반 학습, 부스팅 및 배깅 (부트 스트랩 집계), 링크 기반 클러스터 앙상블 (LCE), 베이지안 네트워크, 가장 가까운 중심 분류기, 베이지안 기법, 가중 거친 세트, k-NN

불균형을 처리하기위한 많은 샘플링 방법.

— 블라디미르 추파 친
소스