오버 샘플링 된 불균형 데이터에 대한 분류 테스트


18

심각하게 불균형 한 데이터를 작업 중입니다. 문헌에서, 리샘플링 (과다 또는 과소 샘플링)을 사용하여 데이터를 재조정하기 위해 여러 방법이 사용됩니다. 두 가지 좋은 접근 방식은 다음과 같습니다.

  • SMOTE : 합성 소수 오버 샘플링 TEchnique ( SMOTE )

  • ADASYN : 불균형 학습을위한 적응 형 합성 샘플링 접근법 ( ADASYN )

ADASYN은 적응성이 뛰어나고 멀티 클래스 문제로 쉽게 확장 할 수 있기 때문에 ADASYN을 구현했습니다.

내 질문은 ADASYN (또는 다른 오버 샘플링 방법)으로 생성 된 오버 샘플링 된 데이터를 테스트하는 방법입니다. 언급 된 두 논문에서 그들이 어떻게 실험을 수행했는지는 확실하지 않습니다. 두 가지 시나리오가 있습니다.

1- 전체 데이터 세트를 오버 샘플링 한 다음이를 훈련 및 테스트 세트 (또는 교차 검증)로 분할합니다.

2- 원본 데이터 세트를 분할 한 후 트레이닝 세트에서만 오버 샘플링을 수행하고 원래 데이터 테스트 세트에서 테스트하십시오 (교차 검증으로 수행 할 수 있음).

첫 번째 경우 결과는 오버 샘플링이없는 것보다 훨씬 낫지 만 과적 합이 있는지 걱정됩니다. 두 번째 경우에는 결과가 오버 샘플링이없는 것보다 약간 우수하고 첫 번째 경우보다 훨씬 나쁩니다. 그러나 두 번째 경우의 우려는 모든 소수 클래스 샘플이 테스트 세트에 들어가면 오버 샘플링으로 인한 이점이 없다는 것입니다.

이러한 데이터를 테스트하기위한 다른 설정이 있는지 확실하지 않습니다.

답변:


18

몇 가지 의견 :

옵션 (1)은 매우 나쁜 생각입니다. 같은 점의 사본은 훈련 및 테스트 세트 모두에서 끝날 수 있습니다. 이것은 테스트 세트에 대한 예측을 시도 할 때 분류 기가 트레인 세트에서 동일한 포인트를 이미 보았 기 때문에 분류자가 속일 수 있습니다. 테스트 세트와 기차 세트의 핵심은 테스트 세트가 기차 세트와 독립적이어야한다는 것입니다.

케이


답장을 보내 주셔서 감사합니다. 그러나 나는 요점을 명확히하고 싶다. 내가 언급 한 방법은 데이터의 "합성"인스턴스를 생성하지만, 원래의 것과 동일하지는 않다. 따라서 동일한 교육 데이터를 테스트하는 것과 똑같지는 않습니다. 그러나 여전히 옵션 1이 유효한 방법인지 확실하지 않습니다.
운임

알 겠어! "합성"데이터를 생성하더라도 합성 데이터는 일반적으로 모방중인 원래 데이터와 매우 유사하기 때문에 (1)의 문제는 여전히 유효합니다.
스테판 웨거

@StefanWager 테스트 세트 배포는 어떻습니까? 원래 데이터 세트와 동일해야합니까?
wannik

2
이 주장을 뒷받침하는 기사 참조?
girl101

@stefan의 접근 방식은 모델이 학습하는 방법에 대한 증거 (테스트)를 수행하기 위해 검증 세트를 확대하거나 합성하지 않는 것이 정확합니다. 그렇게하려면 원본 데이터가 필요합니다
M090009

8

두 번째 옵션은 올바른 방법입니다. 오버 샘플링 기술로 생성 한 합성 샘플은 실제 예가 아니라 합성입니다. 테스트 목적으로는 유효하지 않지만 여전히 훈련에 적합합니다. 알고리즘을 수정하지 않고 분류기의 동작을 수정하기위한 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.