나는 매우 바이어스 된 이진 데이터 세트를 가지고 있습니다. 포지티브 클래스보다 네거티브 클래스의 예가 1000 배 더 많습니다. 이 데이터에 대해 Tree Ensemble (Extra Random Trees 또는 Random Forest)을 훈련시키고 싶지만, 긍정적 클래스의 충분한 예를 포함하는 훈련 데이터 세트를 생성하는 것은 어렵습니다.
긍정적 인 예와 부정적인 예의 수를 정규화하기 위해 계층화 된 샘플링 접근법을 수행하면 어떤 의미가 있습니까? 다른 말로, 예를 들어 훈련 세트에서 긍정적 인 클래스 예제의 수를 인위적으로 (리샘플링하여) 팽창시키는 것은 나쁜 생각입니까?