Support Vector Machine은 불균형 데이터 세트를 처리합니까?


14

SVM은 불균형 데이터 세트를 처리합니까? 불균형 데이터 세트를 처리하는 매개 변수 (예 : C 또는 분류 오류)가 있습니까?


1
데이터 세트가 "불균형"이되는 이유는 무엇입니까?
whuber

1
@whuber 매우 다양한 클래스 유병률을 가진 분류 데이터 세트를 종종 불균형이라고합니다.
Marc Claesen

1
@Marc 일반적으로 사실 일 수도 있지만 모호한 개념입니다. "거의 변화"는 얼마입니까? 특정 상황을 제외하고 왜 중요한가? 나는 이 질문 의 제안자 가 의도 된 의미에 대한 다른 사람의 지적 추측을 받아들이지 않고 "불균형"에 의해 무엇을 의미 하는지 배우는 것이 중요하다고 생각합니다 .
whuber

@whuber 불균형 데이터 셋은 머신 러닝의 일반적인 개념입니다. 예를 들어 스팸 탐지 등으로 인한 응용 프로그램 측면에서 아마 확률 대신 오 분류 오류를 목표로하는 알고리즘의 우세 때문일 수 있습니다. 결과적으로 오류 가중치에 문제가 있습니다.
seanv507

2
설명을 해주셔서 감사합니다, @seanv. 용어 문제는 실제로 "핸들"이 "적용될 수있다"를 말하는 것이 아니라 오히려 (1) 소수에 해당하는 예측 성능에 의해 영향을받을 수있는 클래스가있는 설정을 암시한다 다른 계급의 존재, (2) 소수 계급에 대한 정확한 예측이 중요하다. 그런 의미에서 "불균형 데이터 세트"는 문제에 대한 다소 불완전한 설명이지만,이 용어가 일부 통화를 획득 한 것으로 보이므로 불평 할 것 같지 않습니다.
whuber

답변:


18

불균형 데이터 세트의 경우 일반적으로 클래스 당 오 분류 페널티를 변경합니다. 이를 클래스 가중치 SVM이라고하며 다음을 최소화합니다.

minw,b,ξi=1Nj=1Nαiαjyiyjκ(xi,xj)+CposiPξi+CnegiNξi,s.t.yi(j=1Nαjyjκ(xi,xj)+b)1ξi,i=1Nξi0,i=1N

PNC

이 접근법은 꽤 일찍 도입되었으며, 예를 들어 1997 년 논문에서 언급되었습니다.

Edgar Osuna, Robert Freund 및 Federico Girosi. 벡터 머신 지원 : 교육 및 애플리케이션. 기술 보고서 ​​AIM-1602, 1997. ( pdf )

Cpos=2CnegC=Cneg


감사합니다! 또한 로지스틱 회귀, 네이비 베이, 의사 결정 트리가 이러한 불균형 문제를 처리합니까?
RockTheStar

로지스틱 회귀 분석은 확실히 긍정적 패턴과 부정적인 패턴에 대한 가능성을 다르게 가중시킵니다.
Dikran Marsupial

로지스틱 회귀 및 SVM은 본질적인 방법을 제공합니다. 나는 다른 모든 방법에 대해 마음에 알지 못하지만 소수 클래스를 오버 샘플링하는 것은 거의 모든 방법에서 작동합니다 (정확하게 수학적으로 우아하지는 않지만).
Marc Claesen

1
감사합니다 @Dikran. Marc : 그렇습니다. 간단한 오버 샘플링은 일반적으로 작동합니다. 그러나 이것은 상황에 따라 다릅니다. 결과는 소수를 오버 샘플링 할 때 소수 위치에 동일한 가중치를 추가하는 것입니다 (소수점을 동일한 위치에서 반복해서 반복). 이것은 본질적으로 소수 사례의 "고려"를 개선하는 데 도움이됩니다. 그러나 분류의 결정 경계는 상당히 긴장이되어 (일반적이지 않음), 즉 과적 합이 발생할 수 있습니다. 따라서 SMOTE와 같은 확률 적 샘플링 기법을 고려해야 할 수도 있습니다.
RockTheStar

10

SVM은 불균형 클래스 주파수로 데이터 세트를 처리 할 수 ​​있습니다. 많은 구현에서는 양수 클래스와 음수 클래스 (클래스 빈도 변경과 동일)에 대해 슬랙 페널티 (C)에 대해 다른 값을 가질 수 있습니다. 클래스 주파수가 작동 상 사용되는 것으로 예상되는 테스트 세트에서 일반화 성능을 최대화하려면 이러한 매개 변수의 값을 설정하는 것이 좋습니다.

나는 이것에 관한 논문을 쓴 많은 사람들 중 하나였습니다. 여기 것이 있습니다. 내가 더 최근 / 더 나은 것을 찾을 수 있는지 볼 수 있습니다. Veropoulos, Campbell 및 Cristianini (1999)를 사용해보십시오 .


Dikran은 왜 무의식적으로 만 동일한가?
seanv507

클래스 오류를 가중시키는 것과 정확히 동일하지만 데이터를 리샘플링하는 것과 같지 않습니다 (시작의 경우 가중치는 계속 가변적이지만 데이터는 이산 적입니다). 그것은 점근 적 기대 결과 중 하나입니다 (대부분의 상황에서 특히 유용하지는 않습니다).
Dikran Marsupial
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.