이것은 의사 결정 트리뿐만 아니라 사실상 모든 분류 알고리즘에서 분류에 흥미롭고 매우 빈번한 문제입니다.
경험적으로 알 수 있듯이 두 클래스 중 다른 수의 대표로 구성된 트레이닝 세트는 대다수 클래스에 편향된 분류기를 생성 할 수 있습니다. 유사하게 불균형 인 테스트 세트에 적용될 때이 분류기는 낙관적 정확도 추정치를 산출합니다. 극단적 인 경우 분류기는 모든 단일 테스트 사례를 다수 클래스에 할당하여 다수 클래스에 속하는 테스트 사례 비율과 동일한 정확도를 달성 할 수 있습니다. 이것은 이진 분류에서 잘 알려진 현상이며 자연스럽게 다중 클래스 설정으로 확장됩니다.
불균형 데이터 세트로 인해 성능 추정이 비정상적으로 증가 할 수 있기 때문에 이것은 중요한 문제입니다. 결과적으로 알고리즘이 우연히 수행 한 것의 중요성에 대한 잘못된 결론으로 이어질 수 있습니다.
이 주제에 대한 기계 학습 문헌은 본질적으로 세 가지 솔루션 전략을 개발했습니다.
큰 클래스 를 언더 샘플링 하거나 작은 클래스 를 오버 샘플링 하여 처음부터 편향이 발생하지 않도록 훈련 세트의 균형을 복원 할 수 있습니다 .
또는 이전 응답에서 언급 한대로 오 분류 비용을 다시 수정하여 편견을 방지 할 수 있습니다.
추가적인 안전 장치는 정확도를 소위 균형 정확도 로 대체하는 것 입니다. 클래스 별 정확도의 산술 평균, 로 정의됩니다.ϕ:=12(π++π−),π+π−
위의 방법 중 두 가지 이상을 함께 고려하는 것이 좋습니다. 예를 들어, 분류자가 대다수 클래스에 유리한 편향을 얻지 못하도록 소수 클래스를 오버 샘플링 할 수 있습니다. 그런 다음 분류기의 성능을 평가할 때 정확도를 균형 정확도로 대체 할 수 있습니다. 두 가지 접근법은 상호 보완 적입니다. 함께 적용하면 원래 문제를 예방하고 그에 따른 잘못된 결론을 피할 수 있습니다.
이에 대한 후속 조치를 원할 경우 문헌에 대한 추가 참고 자료를 게시하게되어 기쁩니다.