기계 학습에서 불균형 데이터가 실제로 문제가되는시기는 언제입니까?


52

로지스틱 회귀 , SVM , 의사 결정 트리 , 배깅 및 기타 여러 가지 유사한 질문을 사용할 때 불균형 데이터에 대한 여러 가지 질문이 이미있었습니다 . 불행히도, 각 질문은 알고리즘에 특정한 것으로 보이며 불균형 데이터를 다루는 일반적인 지침을 찾지 못했습니다.

Marc Claesen의 답변 중 하나를 인용 하여 불균형 데이터 처리

(...)는 학습 방법에 크게 의존합니다. 대부분의 범용 접근 방식에는이를 처리하는 하나 이상의 방법이 있습니다.

그러나 언제 언밸런스 드 데이터에 대해 걱정해야합니까? 어떤 알고리즘이 주로 영향을 받고 어떤 알고리즘을 처리 할 수 ​​있습니까? 데이터의 균형을 맞추려면 어떤 알고리즘이 필요합니까? Q & A 사이트에서 각 알고리즘에 대해 논의하는 것이 불가능하다는 것을 알고 있습니다. 문제가 될 수있는 시점에 대한 일반적인 지침을 찾고 있습니다.



@ MatthewDrury 감사합니다, 이것은 흥미로운 질문이지만 IMHO, 그것은 다른 범위를 가지고 있습니다. 내가 묻는 것은 이것이 실제로 문제가 될 때의 지침입니다. 확실하게 대답 이유를 질문하면 대답에 이르게 할 때 질문을,하지만 난에 대한 정확한 답을 찾고 있어요 질문입니다.
Tim

9
그럴 수 있지! 난 너랑 같이있어. 이것에 대한 "문학"은 실제로 해결해야 할 문제가 있음을 확신 시키거나 문제가 발생하는 상황을 알려주지 않고 문제를 해결하는 방법에 관한 것 같습니다. 나에게 가장 실망스러운 부분 중 하나입니다.
Matthew Drury

2
@MatthewDrury는 정확히 문제입니다!
Tim

1
방법에 대한 총 조사는 SE 질문의 범위 내에 있지 않습니다. 질문을 수정하고 싶습니까?
AdamO

답변:


28

직접적인 대답은 아니지만 통계 문헌에서 불균형 데이터에 대한 편견 중 일부는 역사적 근거가 있음을 주목할 가치가 있습니다.

많은 고전적 모델은 특히 통계적 방법을 개발하기위한 전통적 / 원래 동기 부여 인 실험 설계와 밀접한 관련이있는 ANOVA와 같은 방법의 경우 균형 데이터를 가정하여 깔끔하게 단순화합니다.

그러나 통계적 / 확률 론적 산술은 불균형 데이터로 인해 매우 추악하고 아주 빠릅니다. 컴퓨터가 널리 보급되기 전에는 수동 계산이 너무 광범위하여 불균형 데이터에 대한 모델 추정이 실제로 불가능했습니다.

물론 컴퓨터는 기본적으로 이것을 문제가 아닌 것으로 렌더링했습니다. 마찬가지로, 대규모 데이터 세트에 대한 모델을 추정하고, 고차원 최적화 문제를 해결하고, 분석적으로 다루기 어려운 관절 확률 분포에서 표본을 추출 할 수 있습니다.

그것은 오래된 문제이며 학자들은 문제를 해결하는 데 많은 시간을 투자했습니다 ... 그 동안 많은 응용 문제가 연구를 앞 지르고 / 제거했지만, 오래된 습관은 열심히 죽습니다 ...

추가하려면 다음을 편집하십시오.

나는 나오지 않았다는 것을 알고 있습니다. 불균형 데이터 사용에 대한 저수준 문제는 없습니다. 내 경험상 "불균형 데이터 피하기"에 대한 조언은 알고리즘에 따라 다르거 나 상속 된 지혜입니다. 저는 일반적으로 불균형 데이터가 잘 지정된 모델에 개념적 문제를 일으키지 않는다는 AdamO에 동의합니다.


4
나는 당신의 요점을 얻는 것처럼 보이지만, 당신의 전제에는 그것을 뒷받침하는 논쟁이 없습니다. 편견과 머신 러닝에 어떤 영향을 주 었는가에 대한 몇 가지 논증 및 / 또는 예를 들어 주시겠습니까?
Tim

1
당신이 말을하는 것은 대부분 사실이지만, 그것은 이다 또한 분산 분석 등의 방법이 균형 데이터를보다 강력한 인 경우, 비정규 예를 들어 균형 잡힌 데이터에 문제가되지 않는다. 그러나 나는이 모든
것이이

7
나는 나오지 않았다는 것을 알고 있습니다. 불균형 데이터를 사용하는 데 저수준 문제 는 없습니다 . 내 경험상 "불균형 데이터 피하기"에 대한 조언은 알고리즘에 따라 다르거 나 상속 된 지혜입니다. 저는 일반적으로 불균형 데이터가 잘 지정된 모델에 개념적 문제를 일으키지 않는다는 AdamO에 동의합니다.
Henry

1
@ M.HenryL. 이 의견은 완전성을 위해 귀하의 답변에 추가 할 가치가 있습니다.
Tim

16

WLOG 당신은 "데이터 희소성"이라는 작은 개념이나 작은 셀 수보다는 단일 요소에서 불균형에 초점을 맞출 수 있습니다.

학습에 중점을 두지 않은 통계 분석 에서 성향 점수를 사용 하여 소규모 그룹을 큰 그룹 에 일치 시킬 때 유사하거나 더 나은 검정력이 제공되는 경우가 종종 있습니다. 이는 부분적으로 매칭이 그룹 멤버십의 결정 요인을 "밸런싱"하는 측면에서 컨주 워커 조정과 유사한 목적을 제공하므로 혼란스러운 효과를 차단하기 때문입니다. 다변량 분석에서 조절할 수있는 혼란 자의 수에 대한 이론적 근거는 표본 크기에 따라 다릅니다. 일부 경험 법칙은 10-20 회의 관측마다 하나의 변수를 말합니다. 불균형 데이터에서 데이터는 충분히 크지 만 희귀 한 조건을 가진 사람들은 드물게 있습니다. 분산 인플레이션으로 인해 힘이 크게 줄어 듭니다. 실제로, 당신은 조정에 지나치게 있습니다.

따라서 적어도 회귀에서는 (그러나 모든 상황에서 의심되는) 불균형 데이터의 유일한 문제는 효과적으로 표본 크기작다 는 것입니다 . 드문 클래스의 인원수에 적합한 방법이 있다면, 회원 비율이 불균형 인 경우 아무런 문제가 없습니다.


13

불균형 데이터는 응용 프로그램에 따라 문제 일뿐입니다. 예를 들어 데이터에 A가 99.99 %의 시간과 B의 0.01 %가 발생하고 특정 결과를 예측하려고하면 알고리즘이 항상 A라고 말할 것입니다. 이것은 물론 정확합니다! 분석법이 99.99 %보다 나은 예측 정확도를 얻을 가능성은 거의 없습니다. 그러나 많은 응용 분야에서 우리는 예측의 정확성뿐만 아니라 B가 때때로 발생하는 이유에 관심이 있습니다. 불균형 데이터가 문제가되는 곳입니다. 99.99 %보다 정확하다고 예측할 수 있다고 분석법을 확신하기 어렵 기 때문입니다. 이 방법은 정확하지만 귀하의 질문에는 맞지 않습니다. 따라서 불균형 데이터를 해결하는 것은 기본적으로 정확한 결과 대신 흥미로운 결과를 얻기 위해 의도적으로 데이터를 바이어스하는 것입니다.

일반적으로 세 가지 경우가 있습니다.

  1. 정확한 예측에 전적으로 관심이 있고 데이터가 대표적이라고 생각합니다. 이 경우 99.99 % 정확한 예측을 영광스럽게 생각할 필요가 없습니다. :).

  2. 예측에 관심이 있지만 데이터는 공정한 표본에서 나온 것이지만 여러 가지 관측 결과를 잃었습니다. 완전히 무작위로 관측 값을 잃어버린 경우에도 여전히 괜찮습니다. 편향된 방식으로 잃어 버렸지 만 어떻게 편향되는지 모를 경우 새로운 데이터가 필요합니다. 그러나 이러한 관찰이 하나의 자선에 기초하여 유실되는 경우. (예를 들어 결과를 A와 B로 정렬했지만 다른 방식은 아니지만 B의 절반을 잃어 버렸습니다) Ypu는 데이터를 부트 스트랩 할 수 있습니다.

  3. 정확한 전역 예측에는 관심이 없지만 드문 경우에만 관심이 있습니다. 이 경우 데이터를 부트 스트랩하거나 다른 경우의 데이터를 던지는 데 충분한 데이터가있는 경우 해당 사례의 데이터를 부 풀릴 수 있습니다. 이것은 데이터와 결과에 치우 치므로 기회와 그 종류의 결과는 잘못되었습니다!

일반적으로 목표는 무엇인지에 달려 있습니다. 일부 목표는 다른 목표와 달리 불균형 데이터로 인해 어려움을 겪습니다. 그렇지 않으면 일반적으로 끔찍한 결과를 얻을 수 있기 때문에 모든 일반적인 예측 방법이 어려움을 겪습니다.


7
우리가 모델을 비전문적으로 기피 할 때이 이야기는 어떻게 변합니까?
Matthew Drury

@MatthewDrury 원래 모델의 확률은 대부분 사례 1과 3에 대해 정확합니다. 문제는 매우 큰 데이터 집합에서만 B가 A에서 올바르게 분리되고 B의 확률이 천천히 실제 값으로 수렴한다는 것입니다. 예외적으로 B가 A와 명확하게 분리되거나 A와 완전히 무작위로 분리되면 확률은 각각 거의 즉시 또는 수렴하지 않습니다.
zen

@zen 나는 로지스틱 회귀가 덜 취약하다는 것에 동의하지 않는다. 로지스틱 회귀는 데이터 불균형에 매우 취약하며, 작은 샘플 바이어스를 생성하며 로그 승산 비는 2 배가됩니다. 조건부 로지스틱 회귀는 바이어스없이 동일한 OR을 추정하는 대안입니다.
AdamO

@AdamO 예 로지스틱 회귀는 여전히 취약합니다. 그러나 나무의 경우 작은 경우를 완전히 무시할 수 있습니다. 단지 작은 샘플 크기도 아닙니다. 큰 n 및 예를 들어 옵션 트리 간 80 % -20 % 분포에서도 20 % 옵션의 비율이 일부 변수 x에 따라 명확하게 증가하더라도 80 % 옵션을 선택할 수 있습니다. 더 극단적 인 새로운 관측치가 발견되거나 극단적 인 지점에 대한 가지 수가 적 으면 트리는 80 % 옵션을 예측하지만 로지스틱 회귀 분석은 그 가능성이 줄어 듭니다. 조건부 로지스틱 회귀 분석에 대해 옳습니다
zen

2
@MatthewDrury Stephen Senn은 내가 자주 읽는 논문 에서이 요점 대해 훌륭한 토론 을했습니다 . 경험적으로 abcd 항목이있는 2x2 테이블의 승산 비는 ad / (bc)에 의해 추정되며 분산은 1 / a + 1 / b + 1 / c + 1 / d입니다. 임의로 소수의 사례 (a 및 c)를 샘플링 할 수 있으며 승산 비는 여전히 공정하지 않지만 분산은 무한대로 진행됩니다. 정밀한 문제입니다.
AdamO

8

두 개의 클래스가 있다고 가정 해 봅시다.

  • 인구의 99.99 %를 나타내는 A
  • 인구의 0.01 %를 나타내는 B

희귀병이나 사기꾼의 영향을받는 개인이 될 수있는 클래스 B 요소를 식별하는 데 관심이 있다고 가정 해 봅시다.

그냥 추측하여 학습자를 이동하지 않을 수 있습니다 자신의 손실 기능과 거의 잘못 분류 요소에서 높은 점수 것, 숫자, (이 경우에는 건초 더미에서) 바늘. 이 예제는 클래스 불균형 문제를 완화하기 위해 비용 함수 조정이라는 "트릭"중 하나의 직관을 제공합니다.

모델이 거의 0의 감도와 거의 1의 특이성을 나타낼 때 불균형 데이터가 문제라고 생각합니다. "문제 무시"섹션 에서이 기사의 예제를 참조하십시오 .

문제는 종종 해결책이 있습니다. 위에서 언급 한 트릭과 함께 다른 옵션이 있습니다 . 그러나 모델과 계산의 복잡성이 증가하면서 가격이 책정됩니다.

이 질문은 0에 가까운 감도와 1에 가까운 특이성에 어떤 모델이 정착 될 가능성이 높은지를 묻습니다. 나는 그것이 몇 가지 차원에 달려 있다고 생각합니다.

  • 평소처럼 용량이 적습니다.
  • 일부 비용 함수는 다른 것보다 많은 어려움을 겪을 수 있습니다. 평균 제곱 오차 (MSE)가 Huber 보다 노출이 적습니다. MSE는 잘못 분류 된 B 클래스 요소에 덜 취약해야합니다 .

1
이것은 암시 적으로 (1) 최대화하려고하는 KPI가 정확도이고 (2) 정확도가 분류 모델 평가에 적합한 KPI라고 가정합니다. 그렇지 않습니다.
S. Kolassa-복원 모니카

5

당신이 그것에 대해 생각하면 : 완벽하게 분리 가능한 고도의 불균형 데이터 세트에서 거의 모든 알고리즘이 오류없이 수행됩니다.

따라서 데이터 노이즈 문제가 많고 특정 알고리즘과 관련이 적습니다. 그리고 어떤 알고리즘이 특정 유형의 노이즈를 가장 잘 보상하는지 미리 알 수 없습니다.

결국 다른 방법을 시도하고 교차 검증으로 결정해야합니다.


나는이 의견이 약간 평가받지 못한다고 생각한다. 나는 단지 수업 시간의 불균형이 항상 문제 가 아니라는 것을 누군가에게 확신시키기 위해 약간의 시간을 보냅니다 .
RDK

이것은 질문에 대답하지 않습니다. 언밸런스 클래스는 어떻게 "데이터 노이즈의 문제"가 되는가?
S. Kolassa-복원 모니카

2
@StephanKolassa 그것은 불균형 데이터가 (직접적으로) 문제 가 아니라고 대답하기 때문 입니다. 따라서 "어떻게"인지 물어볼 수 없습니다. 보다 일반적인 질문 인 "데이터 분석에서 노이즈 문제를 처리하는 방법"에 대한 답은 개별 데이터 세트에만 적용되며 유효성 검사를 설정하고 모든 작업을 시도하는 것입니다. 정말로 토론을 원한다면 ele.uri.edu/faculty/he/PDFfiles/ImbalancedLearning.pdf 에 아이디어가 있다고 생각합니다. 그러나 결국에는 샘플링 / 가중치 / 임계 값을 수행하며이 데이터 세트에서 정확히 무슨 일이 있었는지 알 가치가 없습니다.
Gerenuk
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.