로지스틱 회귀 , SVM , 의사 결정 트리 , 배깅 및 기타 여러 가지 유사한 질문을 사용할 때 불균형 데이터에 대한 여러 가지 질문이 이미있었습니다 . 불행히도, 각 질문은 알고리즘에 특정한 것으로 보이며 불균형 데이터를 다루는 일반적인 지침을 찾지 못했습니다.
Marc Claesen의 답변 중 하나를 인용 하여 불균형 데이터 처리
(...)는 학습 방법에 크게 의존합니다. 대부분의 범용 접근 방식에는이를 처리하는 하나 이상의 방법이 있습니다.
그러나 언제 언밸런스 드 데이터에 대해 걱정해야합니까? 어떤 알고리즘이 주로 영향을 받고 어떤 알고리즘을 처리 할 수 있습니까? 데이터의 균형을 맞추려면 어떤 알고리즘이 필요합니까? Q & A 사이트에서 각 알고리즘에 대해 논의하는 것이 불가능하다는 것을 알고 있습니다. 문제가 될 수있는 시점에 대한 일반적인 지침을 찾고 있습니다.