불균형 클래스를 다루기위한 접근법의 분류


8

불균형 계급 문제를 해결하기 위해 개발 된 접근법을 분류하는 가장 좋은 방법은 무엇입니까?

기사는 다음과 같이 분류합니다.

  1. 전처리 : 오버 샘플링, 언더 샘플링 및 하이브리드 방법,
  2. 비용에 민감한 학습 : 직접 분석법과 메타 학습을 포함하며 후자는 임계 값과 샘플링으로 더 나뉘어집니다.
  3. 앙상블 기술 : 앙상블 학습과 함께 비용에 민감한 앙상블 및 데이터 전처리를 포함합니다.

번째 분류 :

  1. 데이터 전처리 : 분포 변경 및 데이터 공간 가중치를 포함합니다. 1 클래스 학습은 배포 변경으로 간주됩니다.
  2. 특수 목적 학습 방법
  3. 예측 사후 처리 : 임계 값 방법 및 비용에 민감한 사후 처리 포함
  4. 하이브리드 방법 :

세 번째 기사 :

  1. 데이터 수준 방법
  2. 알고리즘 수준 방법
  3. 하이브리드 방법

마지막 분류는 출력 조정을 독립적 인 접근 방식으로 간주합니다.

미리 감사드립니다.


4
아주 짧은 대답 : 그들 모두가 최고이고 그들 모두가 최악입니다! 분류 및 데이터 마이닝은 일반적으로 매우 상황에 민감합니다. 이 도메인의 모든 솔루션에 맞는 크기는 없습니다. 그건 그렇고, 가장 일반적인 용어로, 최선의 접근 방식은 일반적으로 기능 추출에서 평가 체계에 이르기까지 다양한 수준에서 최선의 결정을 결합한 것입니다.
mok

@mok 감사합니다. sklearn의 분류 자에서 클래스 가중치를 알려주시겠습니까? 예를 들어 로지스틱 회귀는 어떤 카테고리로 분류됩니까?
ebrahimi 2016 년

@ebrahimi, 전달 된 사전에 따라 가중치 만 조정되거나 y (클래스) 값에 따라 계산 (추론)되고 데이터는 그대로 유지되므로 알고리즘 수준에 속해야합니다.
Sanjay Krishna

@SanjayKrishna 감사합니다. 첫 번째 분류의 경우 비용에 민감한 학습에 속하지 않습니까? 또한 두 번째 분류 체계의 경우 세 번째 분류 분류, 즉 비용에 민감한 사후 처리로 분류됩니다. 사실입니까? 이것에 대한 두 번째 대답 : stackoverflow.com/questions/32492550/… 도 유용합니다.
ebrahimi

답변:


5

내가 보는 방식은 세 가지 범주 모두가 많은 것들에 동의합니다. 예를 들어, 세 가지 모두 사전 처리 단계 범주가 있습니다.

나는 일반적으로 세 번째 분류가 더 일반적이고 더 많은 것을 포함한다는 데 동의하는 경향이 있습니다.

  • 데이터 레벨 카테고리 (샘플링 / 언더 예) 이상 수준의 불균형을 다루는 임의의 전처리 단계를 포함한다.
  • 알고리즘 수준은 처음 두 논문의 제 범주를 포함하는 것으로 간주 될 수있다. 클래스 불균형을 다루는 알고리즘이 변경되면 여기에갑니다 (예 : 클래스 가중치).
  • 마지막 으로이 둘을 결합하기위한 하이브리드 범주입니다.

처음 두 기사에서 빠진 유일한 것은 후 처리 단계인데, 솔직히 말해서 다른 것만 큼 자주 사용되지는 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.