다운 샘플링하는 이유


42

이메일이 스팸인지 예측하는 분류기를 배우고 싶다고 가정 해보십시오. 그리고 이메일의 1 %만이 스팸이라고 가정합니다.

가장 쉬운 방법은 스팸 이메일이 없다는 간단한 분류기를 배우는 것입니다. 이 분류기는 99 %의 정확도를 제공하지만 흥미로운 것은 배우지 않으며 100 %의 잘못된 부정 비율을 갖습니다.

이 문제를 해결하기 위해 사람들은 "다운 샘플링"하거나 예제의 50 %가 스팸이고 50 %가 스팸이 아닌 데이터의 하위 집합에 대해 알게되었습니다.

그러나이 분류 기준을 작성하고 실제 이메일 모음에서 사용하기 시작하면 (50/50 테스트 세트가 아닌) 많은 이메일이 스팸 일 것으로 예상 할 수 있기 때문에이 접근법에 대해 걱정하고 있습니다. 다시는 그렇지 않습니다. 실제로 데이터 세트에있는 것보다 훨씬 많은 스팸을 보는 데 사용 되었기 때문입니다.

이 문제를 어떻게 해결합니까?

( "업 샘플링"또는 긍정적 훈련 예제를 여러 번 반복하여 데이터의 50 %가 긍정적 훈련 예제 인 경우 비슷한 문제가있는 것으로 보입니다.)

답변:


37

실제로 대부분의 분류 모델은 이진 결정이 아니라 지속적인 결정 값을 산출합니다 (예 : 로지스틱 회귀 모델은 확률을 출력하고 SVM은 초평면까지의 서명 된 거리를 출력합니다). 결정 값을 사용하여 '거의 확실하게 긍정적'에서 '거의 확실하게 부정적'까지 테스트 샘플의 순위 를 지정할 수 있습니다 .

의사 결정 값을 기반으로 데이터의 특정 부분에 양수로 레이블이 지정되도록 분류자를 구성하는 컷오프를 항상 할당 할 수 있습니다. 모델의 ROC 또는 PR 곡선을 통해 적절한 임계 값을 결정할 수 있습니다 . 트레이닝 세트에 사용 된 밸런스에 관계없이 결정 임계 값으로 플레이 할 수 있습니다. 다시 말해, 업 샘플링 또는 다운 샘플링과 같은 기술은 이와 직교합니다.

모델을 가정하면 더 나은 무작위보다, 당신은 직관적으로 볼 수 있습니다 (에 리드 긍정적 분류에 대한 임계 값을 증가 적은 양의 예측이) 반대 낮은 리콜 그 반대의 비용 모델의 정밀도를 증가시킨다.

SVM을 직관적 인 예로 생각해보십시오. 주요 과제는 분리 초평면 의 방향 을 배우는 것 입니다. 업 샘플링 또는 다운 샘플링이 도움이 될 수 있습니다 (다운 샘플링보다 업 샘플링을 선호합니다). 초평면의 방향이 양호 할 때, 결정 임계 값 (예를 들어, 초평면까지의 서명 된 거리)으로 플레이하여 원하는 양의 예측을 얻을 수 있습니다.


고마워, 그것은 매우 도움이되었습니다. 임계 값을 어떻게 알 수 있습니까? 긍정적 인 예측의 비율이 모집단의 긍정적 인 예의 비율과 같도록 임계 값을 설정 하시겠습니까?
Jessica

2
@Jessica 앞에서 언급했듯이 임계 값을 선택하는 편리한 방법은 ROC (수신기 작동 특성) 곡선입니다. 모든 임계 값은 ROC 공간의 한 지점에 해당합니다. 곡선을 플로팅 할 때 특정 요구에 맞는 것을 기준으로 임계 값을 선택할 수 있습니다. (정확한 리콜 커브를 대안으로 사용할 수도 있습니다)
Marc Claesen

SVM에서 학습 한 초평면까지의 테스트 포인트 거리가 예측의 신뢰도라는 데 동의하지 않습니다. SVM 출력 예측 신뢰를 유지하려는 노력이있었습니다. 예를 들어 플래트 스케일링을 찾아보십시오. 그러나 가우시안 프로세스 분류 (wrt 예측 신뢰도)만큼 효과적이지 않습니다.
Seeda

1
R[0,1]

@MarcClaesen Platt 스케일링을 사용하는 것은 제안하지 않습니다. 예측 신뢰를 생성하는 것은 "시도"이지만 더 나은 대안이 있습니다. 내가 말하는 것은 초평면까지의 거리를 사용하는 것이 의미가 없으며 문헌을 검토한다는 것입니다 .SVM에서 자신감을 얻으려고 시도하는 것이 마음에 오는 첫 번째 일 임에도 불구하고 그것을 읽지 못했습니다.
Seeda

14

여기서 실제 문제는 선택한 메트릭입니다. % 정확도는 불균형 데이터 세트에서 모델의 성공을 측정하는 좋지 않은 척도입니다 (확실히 언급 한 이유 :이 경우 99 %의 정확도를 달성하는 것은 쉽지 않습니다).

모델을 맞추기 전에 데이터 집합을 균형 조정하는 것은 모델을 편향시키고 잠재적으로 유용한 데이터를 버리는 방식으로 나쁜 솔루션입니다.

데이터의 균형을 맞추는 것보다는 정확도의 균형을 맞추는 것이 훨씬 좋습니다. 예를 들어 모델을 평가할 때 균형 잡힌 정확도를 사용할 수 있습니다 (error for the positive class + error for the negative class)/2. 모두 긍정적이거나 모두 부정적인 것으로 예측하면이 측정 항목이 50%좋은 속성이됩니다.

제 생각에는 다운 샘플링해야하는 유일한 이유는 데이터가 너무 많아서 모델에 맞지 않을 때입니다. 많은 분류기 (예 : 로지스틱 회귀)는 균형이 맞지 않는 데이터에 적합합니다.


불균형 데이터에서 분류자가 어떻게 잘 작동하는지 물어볼 수 있습니까? 아마도 내 데이터 일지 모르지만 혼합 오버 / 언더 샘플링을 사용하여 불균형하고 균형 잡힌 훈련 데이터에 대한 로지스틱 회귀, 임의 포리스트 및 C5.0 모델을 시도했습니다. 불균형 데이터에 대해 훈련 된 모델은 균형 데이터에 대해 훈련 된 모델보다 테스트 세트에서 훨씬 더 나쁜 성능을 보입니다.
Seanosapien 2019

13

언제나 @Marc Claesen좋은 답변입니다.

누락 된 것처럼 보이는 핵심 개념이 비용 함수 개념이라고 덧붙이고 싶습니다 . 어떤 모델이든 내재적 또는 명시 적 오 탐지 대 오 탐지 (FN / FP) 비용이 있습니다. 설명 된 불균형 데이터의 경우 종종 5 : 1 또는 10 : 1 비율을 갖습니다. 비용 함수를 모델에 도입하는 방법에는 여러 가지가 있습니다. 전통적인 방법은 모형에 의해 생성 된 확률에 확률 차단을 적용하는 것입니다. 이는 로지스틱 회귀 분석에 효과적입니다.

자연스럽게 확률 추정값을 출력하지 않는 엄격한 분류기에 사용되는 방법은 원하는 비용 함수를 유도하는 비율로 대다수 클래스를 언더 샘플링하는 것입니다. 50/50에서 샘플링하면 임의의 비용 함수가 유도됩니다. 비용 함수는 다르지만 유병률로 샘플링 한 것처럼 임의적입니다. 비용 함수 (일반적으로 50/50이 아님)에 해당하는 적절한 샘플링 비율을 예측할 수 있지만 대부분의 실무자들은 몇 가지 샘플링 비율을 시도하여 비용 함수에 가장 가까운 것을 선택합니다.


2
그것을 가져 주셔서 감사합니다, 그것은 내가 고려하지 않은 흥미로운 아이디어입니다. 비용 함수에 해당하는 샘플링 비율을 어떻게 알 수 있습니까?
Jessica

8

다운 샘플링의 이유 중 하나는 제시카의 질문에 직접 응답합니다. 다운 샘플링의 한 가지 이유는 컴퓨터에서 큰 데이터 세트로 작업하고 메모리 제한에 직면하거나 단순히 처리 시간을 줄이고 싶을 때입니다. 부정적인 경우에서 다운 샘플링 (즉, 교체없이 무작위 샘플 채취)은 데이터 세트를보다 관리하기 쉬운 크기로 줄입니다.

귀하의 질문에 "분류기"사용을 언급했지만 어느 것을 지정하지 않았습니까? 피하고 싶은 분류자는 의사 결정 트리입니다. 드문 이벤트 데이터에서 간단한 의사 결정 트리를 실행할 때 종종 긍정적 인 사례를 범주로 나누기가 어려워 트리가 단일 루트 만 빌드한다는 것을 알았습니다. 드문 이벤트의 트리 성능을 향상시키는보다 정교한 방법이있을 수 있습니다.

β0

βc=β0log(p+1p+)

p+

nnnNn


3

물론 모든 것을 '스팸 아님'으로 분류하면 100 개의 메일이 99 개를 올바르게 분류하지만 스팸으로 분류 된 유일한 스팸은 '스팸 아님'으로 분류 할 수 있습니다 (100 % False Positive). 알고리즘을 평가하기 위해 선택한 메트릭이 적합하지 않은 것으로 나타났습니다. 이 비디오 는 개념을 보여줍니다.

대략적으로 말하면, 데이터 세트의 균형을 맞추면 오 분류 오류에 가중치를 둘 수 있습니다. 언밸런스 트레이닝 세트를 사용하는 알고리즘은 아마도 스캔 티 클래스의 데이터를 잘못 분류한다는 사실에 크게 중요하지 않기 때문에 기능과 구별하는 법을 배우지 못할 것입니다.


0

두 가지 모두 학습 알고리즘을 트릭하기 때문에 다운 샘플링 또는 업 샘플링을 사용하지 않겠지 만 데이터가 불균형하면 정확도 측정이 유효하지 않거나 정보가 정확하지 않으므로 정밀도와 리콜 측정을 사용하는 것이 좋습니다. 귀하의 경우 올바르게 분류 된 스팸) 부정적인 예 수에 관계없이 스팸을 탐지하는 측면에서 시스템의 실제 성능에 대한 좋은 아이디어를 제공합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.