언제 데이터 셋을 불균형으로 간주해야합니까?


10

데이터 세트의 긍정적 및 부정적 예의 수가 불균형 인 상황에 직면하고 있습니다.

내 질문은 데이터 집합에서 일종의 균형을 맞추기 위해 큰 범주를 하위 샘플링 해야하는시기를 알려주는 경험 법칙이 있습니까?

예 :

  • 긍정적 인 예의 수가 1,000이고 부정적인 예의 수가 10,000이면, 전체 데이터 세트에 대한 분류기를 훈련해야합니까, 아니면 부정적인 예를 서브 샘플링해야합니까?
  • 1,000 긍정적 인 예와 100,000 부정적인에 대한 같은 질문입니다.
  • 10,000 긍정과 1,000 긍정에 대한 동일한 질문.
  • 기타...

데이터 세트에는 그 자체로 완벽하게 분리되지 않는 문제가 없습니다. 어떤 모델링 기법을 사용하고 있습니까? 기술이 "균형"데이터에 의존하는 경우 잘못된 기술을 사용하고있을 수 있습니다.
D3C34C34D

1
Nina Zumel은 여기서 다른 추정량에 대한 밸런싱의 영향을 조사합니다 . 이는 다른 사람에게도 도움이 될 수 있습니다. 그녀는 임의의 포리스트, SVM 및 로짓 추정을 살펴 봅니다.
CFM

답변:


9

서브 샘플링 (다운 샘플링)은 기본 수준에서 클래스 불균형을 제어하는 ​​데 널리 사용되는 방법으로 문제의 근본 원인을 해결합니다. 따라서 모든 예에서 매번 수업의 과반수를 임의로 선택하면 효과가 있습니다. 10 개의 모델 (1,000의 10 배 대 1,000의 소수)을 만들어서 전체 데이터 세트를 사용할 수도 있습니다. 이 방법을 사용할 수 있지만, 앙상블 방법을 시도하지 않으면 9,000 개의 샘플을 버리게됩니다. 쉬운 수정이지만 데이터를 기반으로 최적의 모델을 얻기가 어렵습니다.

학급 불균형을 통제해야하는 정도는 주로 목표에 달려 있습니다. 순수한 분류에 관심이 있다면, 불균형은 대부분의 기술에서 50 % 확률 컷오프에 영향을 미치므로 다운 샘플링을 고려할 것입니다. 분류 순서에만 관심이 있고 (일반적으로 네거티브보다 더 높은 긍정을 원합니다) AUC와 같은 측정 값을 사용하는 경우 클래스 불균형은 확률을 편향 시키지만 대부분의 기술에 대해서는 상대적 순서가 상당히 안정적이어야합니다.

로지스틱 회귀는 소수 클래스의> 500이있는 한 모수 추정값이 충분히 정확하고 절편에 영향을 미칠 수있는 유일한 영향이므로 클래스 불균형에 적합합니다. 필요. 로지스틱 회귀 분석은 클래스가 아닌 확률을 모델링하므로 필요에 맞게 더 많은 수동 조정을 수행 할 수 있습니다.

많은 분류 기술에는 소수 클래스에 더 집중하는 데 도움이되는 클래스 가중치 인수가 있습니다. 그것은 진정한 소수 클래스의 미스 분류에 불이익을 줄 것이므로 전체 accucracy는 약간 고통을 당할 것이지만 올바르게 분류 된 더 많은 소수 클래스가 보이기 시작할 것입니다.


"소수 클래스의> 500이있는 한"에 대한 안내를 확대 할 수 있습니까? 이 500을 어디서 얻었습니까? 당신의 경험에 근거하고 있습니까? 나는 당신의 대답에서 백분율을 기대하고있었습니다.
Jas

2

불균형은 공식적으로 정의되어 있지 않지만 일반적으로 균형 기술을 사용하면 1에서 10의 비율이 불균형합니다.

불균형에는 상대 및 절대의 두 가지 유형이 있습니다. 상대적으로 다수 클래스와 소수 클래스 사이의 비율은 불균형합니다. 절대적으로 소수의 소수 샘플도 있습니다. 불균형 비율이 높을수록 절대 불균형에 도달 할 가능성이 높아집니다.

직선형 서브 샘플링은 불균형 데이터 세트에 대처하기위한 최적의 방법이 아닙니다. 원래 데이터 세트에서 잘 작동하는 분류기를 작성해야하기 때문입니다. 불균형 데이터 세트에서 분류기를 작성하는 기술은 여기를 참조 하십시오 . 분류기를 평가하려면 여기를 참조 하십시오 .


2

데이터 불균형 문제 ?? 이론적으로는 숫자에 관한 것입니다. 차이가 1 샘플 인 경우에도 데이터 불균형

실제로, 이것이 데이터 불균형 문제라고 말하는 것은 다음 세 가지에 의해 제어됩니다. 1. 가지고있는 샘플의 수와 분포 2. 같은 클래스 내에서의 변화

마지막 두 점은 우리의 문제를 어떻게 생각 하는지를 바꿉니다.

이것을 설명하기 위해 예를 들겠습니다 : Class A = 100 샘플 Class B = 10,000

클래스 B 내의 변동이 매우 낮 으면 다운 샘플링으로 충분하며 데이터 불균형 문제가 없습니다.

클래스 b 내에서 변동이 매우 높으면 다운 샘플링으로 인해 정보가 손실 될 수 있으며 다운 샘플링을 적용하는 것은 위험합니다

또 다른 요점은 많은 샘플 (주로 소수 클래스에 해당)이 있으면 데이터 불균형 문제를 완화하고보다 쉽게 ​​처리 할 수 ​​있습니다.

예 : 10 : 100. 1000 : 1 만

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.