바이어스가 높은 데이터 세트로 트리 앙상블을 훈련 할 때의 의미는 무엇입니까?


14

나는 매우 바이어스 된 이진 데이터 세트를 가지고 있습니다. 포지티브 클래스보다 네거티브 클래스의 예가 1000 배 더 많습니다. 이 데이터에 대해 Tree Ensemble (Extra Random Trees 또는 Random Forest)을 훈련시키고 싶지만, 긍정적 클래스의 충분한 예를 포함하는 훈련 데이터 세트를 생성하는 것은 어렵습니다.

긍정적 인 예와 부정적인 예의 수를 정규화하기 위해 계층화 된 샘플링 접근법을 수행하면 어떤 의미가 있습니까? 다른 말로, 예를 들어 훈련 세트에서 긍정적 인 클래스 예제의 수를 인위적으로 (리샘플링하여) 팽창시키는 것은 나쁜 생각입니까?

답변:


10

예, 문제가 있습니다. 소수를 오버 샘플링하면 과적 합의 위험이 있습니다. 과반수를 과소 표본 추출하면 과반수 측면이 누락 될 위험이 있습니다. 계층화 된 샘플링 btw는 불균일 한 오 분류 비용을 할당하는 것과 같습니다.

대안 :

(1) @Debasis의 답변에서 제안 되고이 EasyEnsemble 논문에 설명 된 것처럼 대다수 하위 클래스에서 여러 하위 세트를 독립적으로 샘플링하고 각 하위 세트를 모든 소수 클래스 데이터와 결합하여 여러 분류 자를 만듭니다 .

(2) SMOTE (Synthetic Minority Oversampling Technique) 또는 SMOTEBoost (SMOTE를 boosting과 결합) 를 사용하여 특징 공간에서 가장 가까운 이웃을 만들어 소수 클래스의 합성 인스턴스를 만듭니다. SMOTE는 DMwR 패키지의 R로 구현 됩니다 .


11

보다 균형 잡힌 데이터 하위 집합에 대한 교육을 권장합니다. 유사한 수의 음성 샘플을 사용하여 무작위로 선택된 긍정적 인 예제 세트에서 무작위 포리스트를 학습합니다. 특히 차별적 특징이 많은 차이를 보이는 경우 이것은 상당히 효과적이며 과적 합을 피할 수 있습니다. 그러나 계층화에서는 과도한 피팅이 문제가 될 수 있으므로 균형을 찾는 것이 중요합니다. 모델이 전체 데이터 세트에서 어떻게 수행되는지 확인한 다음 양수 대 음수 샘플의 비율을 균일 한 비율에 점차적으로 증가시키고 일부 대표 홀드 아웃 데이터에서 성능 지표를 최대화하는 것을 선택하는 것이 좋습니다.

이 논문은 소수 민족의 오 분류에 대해 더 큰 불이익을 주는 것에 대해 이야기하는 상당히 관련이있는 것으로 보인다. http://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdfweighted Random Forest


4

이 불균형에 접근하는 빠르고 쉬운 방법은 종종 더 큰 클래스 (귀하의 경우 네거티브 클래스)를 무작위로 서브 샘플링하고 두 클래스 (하나는 전체 클래스와 다른 클래스)의 멤버로 N 번 분류를 실행하는 것입니다. subsampled) 평균 메트릭 값을보고합니다. 평균은 N (예 : 1000) 반복에 대해 계산됩니다.

보다 체계적인 접근 방식은 OSVM 또는 SVDD와 같은 1 클래스 분류기의 도움으로 강력한 음수 샘플의 서브 세트를 식별하는 일련의 MC (Mapping Convergence) 알고리즘을 실행 한 다음 세트에서 이진 분류를 반복적으로 실행하는 것입니다. 강한 부정 및 양성 샘플. MC 알고리즘에 대한 자세한 내용은이 백서 에서 확인할 수 있습니다 .


0

위에서 언급했듯이 가장 좋은 방법은 대다수 클래스를 N 번 반복하여 샘플링하는 것 (대체없이 샘플링)이며 매번 음수 클래스의 크기는 양의 클래스 크기와 같아야합니다. 이제 N 개의 다른 분류기를 학습하고 평균을 사용하여이를 평가할 수 있습니다.

다른 방법은 부트 스트랩 기술을 사용하는 것입니다. 이로 인해 과적 합이 발생할 수 있지만 시도해 볼 가치가있는 경우 과잉 적합을 피하기 위해 모델을 정규화 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.