최근에 잘 수신 된 질문에서 팀은 언제 머신 러닝에서 불균형 데이터가 실제로 문제 가 되는지 묻습니다 . 문제의 전제는 수업 균형 과 불균형 수업의 문제에 대해 많은 머신 러닝 문헌이 있다는 것입니다 . 아이디어는 긍정적 클래스와 부정적인 클래스 사이의 불균형이있는 데이터 세트가 일부 기계 학습 분류 (여기서는 확률 모델 포함) 알고리즘에 문제를 유발하고 데이터 세트를 "균형화"하여 완벽한 50/50을 복원하는 방법을 찾아야한다는 것입니다 긍정적 클래스와 부정적인 클래스로 나뉩니다.
공감 된 답변의 일반적인 의미는 "적어도 모델링에 대해 신중하지 않다"는 것입니다. 헨리 엘 (Henry L.)은 답변에 대한 찬성 의견에서 다음과 같이 말합니다.
[...] 불균형 데이터를 사용하는 데에는 저수준 문제가 없습니다. 내 경험상 "불균형 데이터 피하기"에 대한 조언은 알고리즘에 따라 다르거 나 상속 된 지혜입니다. 저는 일반적으로 불균형 데이터가 잘 지정된 모델에 개념적 문제를 일으키지 않는다는 AdamO에 동의합니다.
AdamO는 클래스 균형을 가진 "문제"는 실제로 클래스 희귀 성 중 하나라고 주장합니다.
따라서 적어도 회귀에서는 (그러나 모든 상황에서 의심되는) 불균형 데이터의 유일한 문제는 효과적으로 작은 표본 크기를 갖는 것입니다. 드문 클래스의 인원수에 적합한 방법이 있다면, 회원 비율이 불균형 인 경우 아무런 문제가 없습니다.
이것이 실제 문제라면 , 데이터 세트의 균형을 맞추기위한 모든 리샘플링 방법의 목적은 무엇입니까 : 오버 샘플링, 언더 샘플링, SMOTE 등? 암시 적으로 작은 샘플 크기를 갖는 문제를 해결하지 못하므로 아무 것도 정보를 만들 수 없습니다!