나는 많은 예측 변수가있는 분류 작업을 가지고 있는데 (그중 하나가 가장 유익합니다) MARS 모델을 사용하여 분류기를 구성하고 있습니다 (나는 간단한 모델에 관심이 있으며 설명을 위해 glms를 사용하는 것은 다음과 같습니다) 미세 너무). 이제 훈련 데이터 (각 양성 샘플에 대해 약 2700 개의 음성 샘플)에 큰 클래스 불균형이 있습니다. Information Retrieval 작업과 마찬가지로 최상위 순위의 양성 테스트 샘플을 예측하는 데 더 관심이 있습니다. 이러한 이유로 정밀 리콜 곡선의 성능이 중요합니다.
우선, 나는 수업 불균형을 유지하면서 훈련 데이터에 대한 모델을 단순히 훈련시켰다. 훈련 된 모델을 빨간색으로, 가장 중요한 입력은 파란색으로 시각화합니다.
불균형 데이터에 대한 교육, 불균형 데이터에 대한 평가 :
클래스 불균형이 모델을 버리고 있다고 생각하면 최상위 순위의 양성 샘플을 배우는 것이 전체 데이터 세트의 최소 부분이므로 균형 훈련 데이터 세트를 얻기 위해 양성 훈련 포인트를 업 샘플링했습니다. 균형 훈련 세트 에서 성능을 플롯하면 좋은 성능을 얻습니다. PR 곡선과 ROC 곡선 모두에서 훈련 된 모델이 입력보다 낫습니다.
(업 샘플링 된) 균형 데이터에 대한 교육, (업 샘플링 된) 균형 데이터에 대한 평가 :
그러나 균형 잡힌 데이터에 대해 훈련 된이 모델을 사용하여 원래의 불균형 훈련 세트를 예측하면 PR 곡선에서 여전히 성능이 저하됩니다.
(업 샘플링 된) 균형 데이터에 대한 교육, 원본 불균형 데이터에 대한 평가 :
그래서 내 질문은 :
- PR 곡선의 시각화가 훈련 된 모델 (빨간색)의 성능이 떨어지는 이유와 ROC 곡선이 클래스 불균형으로 인해 개선 된 이유는 무엇입니까?
- 리샘플링 / 업 샘플링 / 다운 샘플링 방식으로이를 해결하여 고정밀 / 리콜 영역에 초점을 맞출 수 있습니까?
- 고정밀 / 리콜 지역에 대한 교육에 집중할 수있는 다른 방법이 있습니까?