소수의 반 사실 사건으로 인해 희귀 성이 발생하는 경우 "희귀 한"이벤트를 통한지도 학습


13

시장에서 구매자와 판매자 사이의 "일치"를 관찰한다고 가정하십시오. 또한 미래의 경기를 예측하고 시장의 양쪽에 대한 추천을하는 데 사용하려는 구매자와 판매자 모두의 특성을 관찰하게됩니다.

간단히하기 위해, N 명의 구매자와 N 개의 판매자가 있고 각각이 일치하는 것을 찾는다고 가정하십시오. N 개의 일치 항목과 (N-1) (N-1)의 일치하지 않는 항목이 있습니다. 모든 것을 포함한 훈련 데이터 세트에는 N + (N-1) * (N-1) 관측치가 있으며 엄청나게 클 수 있습니다. (N-1) (N-1) 비 일치에서 무작위로 샘플링하고 감소 된 데이터에 대한 알고리즘을 교육하는 것이 더 효율적일 수 있습니다. 내 질문은 :

(1) 훈련 데이터 세트를 구축하기 위해 비 일치 항목에서 샘플링하여이 문제를 처리 할 수있는 합리적인 방법입니까?

(2) 만약 (1)이 참이라면, (N-1) (N-1)의 덩어리가 얼마나 큰지를 결정하는 엄격한 방법이 있습니까?

답변:


11

내가 올바르게 이해하면 긍정적 인 클래스 (일치)가 거의없는 두 가지 클래스 분류 문제가 있습니다. 많은 분류자가 이러한 클래스 불균형으로 어려움을 겪고 있으며 더 나은 성능을 얻기 위해 대다수 클래스를 하위 샘플링하는 것이 일반적이므로 첫 번째 질문에 대한 대답은 "예"입니다. 그러나 하위 표본을 너무 많이 샘플링하면 소수 양성 클래스를 과대 평가하는 분류기를 사용하게되므로 가장 좋은 방법은 교차 샘플링을 최소화하여 하위 샘플링 배급을 선택하여 성능을 최대화하는 것입니다. 테스트 데이터가 서브 샘플링되지 않은 유효성 검사 오류 이므로 운영 성능을 잘 알 수 있습니다.

클래스 멤버쉽의 확률을 추정하는 확률 적 분류 기가있는 경우 훈련 세트와 작업 중 클래스 주파수의 차이를 보상하기 위해 출력을 더 잘 처리하고 후 처리 할 수 ​​있습니다. 일부 분류기의 경우 최적의 접근 방식은 교차 검증 오류를 최적화하여 서브 샘플링 비율과 출력 보정을 모두 최적화하는 것입니다.

서브 샘플링 대신 일부 분류기 (예 : SVM)의 경우 포지티브 및 네거티브 패턴에 서로 다른 가중치를 부여 할 수 있습니다. 서브 샘플링을 선호합니다. 사용 된 특정 서브 샘플로 인해 결과에 변동성이 없음을 의미합니다. 이것이 불가능한 경우 부트 스트랩 핑을 사용하여 bagged classifier를 작성하십시오. 여기서 반복되는 대다수 클래스의 다른 서브 샘플이 사용됩니다.

내가 말할 한 가지 다른 점은 일반적으로 큰 클래스 불균형이있는 곳에서 거짓 부정 오류와 거짓 긍정적 오류가 똑같이 나쁘지 않다는 것입니다.이를 분류 자 ​​디자인에 구축하는 것이 좋습니다 -각 클래스에 속하는 샘플링 또는 가중치 패턴).


3
(+1), 그러나 나는 순위 (measure : AUC)의 목표와 두 클래스의 분리 (measure : 정확도) 사이를 결정해야한다고 생각합니다. 전자의 경우 Naive Bayes와 같은 확률 론적 분류가 주어지면 불균형이 덜 역할을한다고 생각합니다. 아니면이 경우에도 걱정해야합니까? 또 다른 질문 : "후 처리 결과"는 무엇을 의미합니까? 점수를 실제 확률로 변환?
steffen

@Steffen 내 직감은 클래스 불균형 문제가 순위 문제가 아니라 완전히 사라지지 않는다는 것입니다 (이 문제에 대한 논문을 작성 중이므로 해결할 가치가 있습니다). 사후 처리를 통해 운영 및 훈련 세트 클래스 주파수의 비율로 출력을 곱한 다음 다시 정규화하여 가능한 모든 결과의 확률을 1로 합산했습니다. 그러나 실제로 실제 최적 배율은 다소 다를 수 있으므로 XVAL로 최적화하지만 여전히 정규화됩니다.
Dikran Marsupial

1

우려 (1). 의미있는 결과를 얻으려면 긍정적이고 부정적인 관찰을 유지해야합니다.
(2) 데이터에 우선 순위가 없다면 균일 분포보다 더 현명한 서브 샘플링 방법이 없습니다.


감사합니다 Ugo-교육 데이터에 일치하는 항목과 일치하지 않는 항목이 모두 있어야합니다. 문제는 얼마나 많은 (N-1) (N-1) 비 일치가 필요한지에 관한 것입니다. 파트 (2)의 경우, 나는 모든 관측치에 대해 동일한 무게로 동일한 샘플을 얻을 것입니다.
존 호튼

데이터에 대한 선험이 없다면 데이터를 샘플링 할 합리적인 방법이 없습니다. 따라서 균일 한 샘플링을 수행해야하며,이 경우 더 많이 취할수록 더 좋습니다. 그러나 샘플링으로 인해 발생한 오류를 추정 할 수 있지만이 시점에서 도움이되는 정보가 누락되었습니다.
Ugo

오류는 사용 된 분류기 유형에 따라 다릅니다. 어쨌든 항상 다른 샘플 속도로 예측하고 도입 된 오류가 만족 스럽다고 생각되는 임계 값을 수정할 수 있습니다.
Ugo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.