훈련 세트에서 약 1000 개의 양성 및 10000 개의 음성 샘플로 분류 문제가 있습니다. 따라서이 데이터 세트는 상당히 불균형합니다. 일반 임의 포리스트는 모든 테스트 샘플을 대다수 클래스로 표시하려고합니다.
서브 샘플링 및 가중 임의 숲에 대한 좋은 답변은 여기에 주어집니다 : 높은 바이어스 데이터 세트와 나무 앙상블 훈련의 의미는 무엇인가?
RF 외에 어떤 분류 방법으로 문제를 가장 잘 처리 할 수 있습니까?
훈련 세트에서 약 1000 개의 양성 및 10000 개의 음성 샘플로 분류 문제가 있습니다. 따라서이 데이터 세트는 상당히 불균형합니다. 일반 임의 포리스트는 모든 테스트 샘플을 대다수 클래스로 표시하려고합니다.
서브 샘플링 및 가중 임의 숲에 대한 좋은 답변은 여기에 주어집니다 : 높은 바이어스 데이터 세트와 나무 앙상블 훈련의 의미는 무엇인가?
RF 외에 어떤 분류 방법으로 문제를 가장 잘 처리 할 수 있습니까?
답변:
대다수 클래스를 언더 샘플링하는 것은 일반적으로 그러한 상황에가는 길입니다.
포지티브 클래스의 인스턴스가 너무 적다고 생각되면 오버 샘플링을 수행 할 수 있습니다 (예 : 크기가 n 인 데이터 세트에서 교체 된 샘플 5n 인스턴스).
주의 사항 :
그라디언트 부스팅도 좋은 선택입니다. 예를 들어 sci-kit learn에서 그라디언트 부스팅 분류기를 사용할 수 있습니다. 그라디언트 부스팅은 잘못 분류 된 예제를 기반으로 연속적인 훈련 세트를 구성하여 클래스 불균형을 처리하는 원칙적인 방법입니다.
여기에 게시 된 답변 외에도 부정적인 예와 비교할 때 긍정적 인 예의 수가 너무 적 으면 긍정적 인 예가 이상인 예외 감지 문제에 가깝습니다.
다변량 가우스 분포를 사용하여 모든 점을 모델링 한 다음 평균에서 2 또는 3 표준 거리에있는 점을 선택하는 등 다양한 변칙을 탐지하는 다양한 방법이 있습니다.
생각할 또 다른 음식-더 많은 예제를 사용하여 부정적인 예제를 무작위로 샘플링하여 두 클래스의 수가 동일하도록 상당히 많은 사람들을 보았습니다. 그것은 우리가 문제의 균형을 잡기를 원하는지 아닌지에 따라 전적으로 문제에 달려 있습니다.