약 4000 명의 고객과 두 그룹으로 나뉘어 진 약 4000 명의 고객과 데이터 세트의 균형을 맞추기 위해 오버 샘플링과 언더 샘플링의 조합을 수행하고 싶습니다. 그룹 중 하나의 비율은 약 15 %입니다.
SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE )와 ROSE ( http://cran.r-project.org/web/packages/ROSE/를 살펴 보았습니다 . ROSE.pdf ), 그러나 둘 다 기존 관측 값 (예 : kNN)을 사용하여 새로운 합성 샘플을 만듭니다.
그러나 고객과 관련된 많은 속성이 범주 적이므로 이것이 올바른 방법이라고 생각하지 않습니다. 예를 들어 Region_A 및 Region_B와 같은 많은 변수는 상호 배타적이지만 kNN을 사용하면 새로운 관측치가 Region_A와 Region_B에 모두 배치 될 수 있습니다. 이것이 문제라는 데 동의하십니까?
이 경우-기존 관측 값을 복제하여 R에서 어떻게 오버 샘플링을 수행합니까? 아니면 이것이 잘못된 방법입니까?