GBM 분류에 불균형 한 수업 규모가 있습니까?


16

감독 이진 분류 문제를 처리하고 있습니다. GBM 패키지를 사용하여 개인을 감염되지 않은 / 감염된 것으로 분류하고 싶습니다. 감염된 사람보다 15 배나 더 감염되지 않았습니다.

클래스 크기가 불균형 한 경우 GBM 모델이 어려움을 겪고 있는지 궁금합니다. 이 질문에 대한 답변이 없습니다.

감염되지 않은 개인에게 1의 무게를, 감염된 사람에 15의 무게를 할당하여 무게를 조정하려고했지만 결과가 좋지 않았습니다.


1
(주석) GBM의 약자 및 패키지 링크를 제공하면 도움이됩니다.
Memming

1
그라디언트 부스팅 모델에 어떤 손실 함수를 사용하고 있습니까? 불균형 클래스와 관련하여 가장 일반적인 클래스를 선호하는 것처럼 절대 절대 오류를 사용했을 때 성능이 저하되었습니다. 평균 제곱 오차를 사용하면 성능이 크게 향상되었습니다
Ryan Zotti

나중에 참조하기 위해 caret logarithmic loss (cross-deviance)에서 사용되는 기본 손실 함수가 꽤 유용하다는 것을 알았습니다. (그것은 부정적인 대수 스케일로 잘못된 경우에 엄중히 처벌한다)
Lily Long

답변:


4

내 경험상 GBM은 실제로 불균형 한 수업 규모로 고통 받고 있습니다. SMOTE 샘플링을 사용하여 소수의 클래스를 오버 샘플링하면서 합성 데이터를 만드는 데 성공했습니다. DMwR패키지 에서 찾을 수 있습니다 .


조금 혼란 스러워요. GBM은 데이터 불균형을 처리하는 접근 방식이 아닌가? analyticsvidhya.com/blog/2017/03/…를
Lamothy

5

귀하의 데이터는 과거에 근무했으며 많은 어려움을 겪은 Secom 데이터 와 유사하다고 생각합니다 . 다음은 내가 시도한 것입니다.

  • 다른 샘플링 기술
  • Random Forest, ANN, GBM, Ensemble 메소드 등과 같은 다른 분류기

또한 adadoost, Random Forest와 같은 다른 제품에 비해 더 나은 결과를 제공하는 1 클래스 SVM 을 시도했습니다 . 당신도 그것을 시도 할 수 있습니다.

그리고 1 년 전에이 질문을 한 것을 알 수 있으므로 가장 좋은 방법을 찾았다면 여기에 친절하게 게시하여 정확성을 높이기 위해 도움을받을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.