이메일이 스팸인지 예측하는 분류기를 배우고 싶다고 가정 해보십시오. 그리고 이메일의 1 %만이 스팸이라고 가정합니다.
가장 쉬운 방법은 스팸 이메일이 없다는 간단한 분류기를 배우는 것입니다. 이 분류기는 99 %의 정확도를 제공하지만 흥미로운 것은 배우지 않으며 100 %의 잘못된 부정 비율을 갖습니다.
이 문제를 해결하기 위해 사람들은 "다운 샘플링"하거나 예제의 50 %가 스팸이고 50 %가 스팸이 아닌 데이터의 하위 집합에 대해 알게되었습니다.
그러나이 분류 기준을 작성하고 실제 이메일 모음에서 사용하기 시작하면 (50/50 테스트 세트가 아닌) 많은 이메일이 스팸 일 것으로 예상 할 수 있기 때문에이 접근법에 대해 걱정하고 있습니다. 다시는 그렇지 않습니다. 실제로 데이터 세트에있는 것보다 훨씬 많은 스팸을 보는 데 사용 되었기 때문입니다.
이 문제를 어떻게 해결합니까?
( "업 샘플링"또는 긍정적 훈련 예제를 여러 번 반복하여 데이터의 50 %가 긍정적 훈련 예제 인 경우 비슷한 문제가있는 것으로 보입니다.)