상당히 불균형 한 데이터에서 SVM을 사용하여 예측 모델을 작성하려고합니다. 레이블 / 출력에는 양, 중, 음의 세 가지 클래스가 있습니다. 긍정적 인 예는 내 데이터의 약 10-20 %, 중립 약 50-60 %, 음의 약 30-40 %를 말합니다. 수업 중 잘못된 예측과 관련된 비용이 같지 않기 때문에 수업의 균형을 맞추려고합니다. 한 가지 방법은 훈련 데이터를 리샘플링하고 원래보다 큰 동일하게 균형 잡힌 데이터 세트를 생성하는 것입니다. 흥미롭게도, 그렇게하면 다른 클래스에 대한 더 나은 예측을 얻는 경향이 있습니다 (예를 들어 데이터의 균형을 잡을 때 긍정적 클래스의 예제 수를 늘 렸지만 샘플 예측에서 부정적인 클래스가 더 좋았습니다). 누구나 왜 이런 일이 발생하는지 설명 할 수 있습니까? 음수 클래스의 예제 수를 늘리면 샘플 예측 (예 : 더 나은 예측)에서 양수 클래스와 비슷한 것을 얻을 수 있습니까?
또한 잘못된 분류에 다른 비용을 부과하거나 LibSVM의 클래스 가중치를 사용하여 불균형 데이터를 처리하는 방법에 대한 다른 생각에 대해서도 매우 개방적입니다 (그러나 올바르게 선택 / 조정하는 방법은 확실하지 않음).