불균형 데이터 셋 생성


11

훈련 된 모델을 불균형 데이터 세트에서 테스트하고 싶습니다. 균형 레이블이 지정된 데이터 집합 (스팸 / 스팸이 아닌)에서 합성 데이터를 생성하는 데 사용할 수있는 알고리즘이 있습니까?


한 클래스를 단순히 언더 샘플링하여 언제든지 데이터 세트의 균형을 해제 할 수 있습니다.
user2974951

답변:


8

오버 샘플링에 사용되는 알고리즘 인 SMOTE를 사용해보십시오 . 오버 샘플링하려는 클래스에서 합성 샘플을 만듭니다 .

이를 사용하여 필요한 수의 샘플을 만들 수 있습니다.


1
SMOTE를 언더 샘플링에도 사용할 수 있습니까?
스튜어트 피터슨

글쎄, 당신은 클래스 A를 오버 샘플링하여 클래스 A의 언더 샘플링을 얻을 수 있습니다 ...
kjetil b halvorsen

3
@StuartPeterson 아니요, SMOTE는 오버 샘플링 알고리즘이지만 다른 언더 샘플링 알고리즘도 많이 있습니다.
Mary93
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.