서브 샘플링 (다운 샘플링)은 기본 수준에서 클래스 불균형을 제어하는 데 널리 사용되는 방법으로 문제의 근본 원인을 해결합니다. 따라서 모든 예에서 매번 수업의 과반수를 임의로 선택하면 효과가 있습니다. 10 개의 모델 (1,000의 10 배 대 1,000의 소수)을 만들어서 전체 데이터 세트를 사용할 수도 있습니다. 이 방법을 사용할 수 있지만, 앙상블 방법을 시도하지 않으면 9,000 개의 샘플을 버리게됩니다. 쉬운 수정이지만 데이터를 기반으로 최적의 모델을 얻기가 어렵습니다.
학급 불균형을 통제해야하는 정도는 주로 목표에 달려 있습니다. 순수한 분류에 관심이 있다면, 불균형은 대부분의 기술에서 50 % 확률 컷오프에 영향을 미치므로 다운 샘플링을 고려할 것입니다. 분류 순서에만 관심이 있고 (일반적으로 네거티브보다 더 높은 긍정을 원합니다) AUC와 같은 측정 값을 사용하는 경우 클래스 불균형은 확률을 편향 시키지만 대부분의 기술에 대해서는 상대적 순서가 상당히 안정적이어야합니다.
로지스틱 회귀는 소수 클래스의> 500이있는 한 모수 추정값이 충분히 정확하고 절편에 영향을 미칠 수있는 유일한 영향이므로 클래스 불균형에 적합합니다. 필요. 로지스틱 회귀 분석은 클래스가 아닌 확률을 모델링하므로 필요에 맞게 더 많은 수동 조정을 수행 할 수 있습니다.
많은 분류 기술에는 소수 클래스에 더 집중하는 데 도움이되는 클래스 가중치 인수가 있습니다. 그것은 진정한 소수 클래스의 미스 분류에 불이익을 줄 것이므로 전체 accucracy는 약간 고통을 당할 것이지만 올바르게 분류 된 더 많은 소수 클래스가 보이기 시작할 것입니다.