원래 데이터 세트를 분류를위한 훈련 및 테스트 세트로 분할 할 때 무작위 샘플링 대신 계층화 샘플링을 사용하면 어떤 이점이 있는지 알고 싶습니다.
또한 계층화 된 샘플링이 무작위 샘플링보다 분류기에 더 많은 편향을 가져 옵니까?
데이터 준비를 위해 계층화 된 샘플링을 사용하려는 응용 프로그램은 2에 대해 훈련 된 Random Forests 분류기입니다.원래 데이터 세트 중 3 개 분류기 이전에, 클래스 크기의 균형을 맞추는 합성 샘플 생성 단계 (SMOTE [1])도 있습니다.
Chawla, Nitesh V., 등. " SMOTE : 합성 소수 오버 샘플링 기술. "Journal of Artificial Intelligence Research 16 (2002) : 321-357.