불균형 계급 문제를 해결하기 위해 개발 된 접근법을 분류하는 가장 좋은 방법은 무엇입니까?
이 기사는 다음과 같이 분류합니다.
- 전처리 : 오버 샘플링, 언더 샘플링 및 하이브리드 방법,
- 비용에 민감한 학습 : 직접 분석법과 메타 학습을 포함하며 후자는 임계 값과 샘플링으로 더 나뉘어집니다.
- 앙상블 기술 : 앙상블 학습과 함께 비용에 민감한 앙상블 및 데이터 전처리를 포함합니다.
두 번째 분류 :
- 데이터 전처리 : 분포 변경 및 데이터 공간 가중치를 포함합니다. 1 클래스 학습은 배포 변경으로 간주됩니다.
- 특수 목적 학습 방법
- 예측 사후 처리 : 임계 값 방법 및 비용에 민감한 사후 처리 포함
- 하이브리드 방법 :
세 번째 기사 :
- 데이터 수준 방법
- 알고리즘 수준 방법
- 하이브리드 방법
마지막 분류는 출력 조정을 독립적 인 접근 방식으로 간주합니다.
미리 감사드립니다.
4
아주 짧은 대답 : 그들 모두가 최고이고 그들 모두가 최악입니다! 분류 및 데이터 마이닝은 일반적으로 매우 상황에 민감합니다. 이 도메인의 모든 솔루션에 맞는 크기는 없습니다. 그건 그렇고, 가장 일반적인 용어로, 최선의 접근 방식은 일반적으로 기능 추출에서 평가 체계에 이르기까지 다양한 수준에서 최선의 결정을 결합한 것입니다.
—
mok
@mok 감사합니다. sklearn의 분류 자에서 클래스 가중치를 알려주시겠습니까? 예를 들어 로지스틱 회귀는 어떤 카테고리로 분류됩니까?
—
ebrahimi 2016 년
@ebrahimi, 전달 된 사전에 따라 가중치 만 조정되거나 y (클래스) 값에 따라 계산 (추론)되고 데이터는 그대로 유지되므로 알고리즘 수준에 속해야합니다.
—
Sanjay Krishna
@SanjayKrishna 감사합니다. 첫 번째 분류의 경우 비용에 민감한 학습에 속하지 않습니까? 또한 두 번째 분류 체계의 경우 세 번째 분류 분류, 즉 비용에 민감한 사후 처리로 분류됩니다. 사실입니까? 이것에 대한 두 번째 대답 : stackoverflow.com/questions/32492550/… 도 유용합니다.
—
ebrahimi