당신은 클래스 불균형 다룰 필요가 있기 때문에 경우 / 가 (눈에 보이지 않는 데이터) 모델 더 나은한다. "더 나은"은 스스로 정의해야하는 것입니다. 정확성 일 수도 있고, 비용 일 수도 있고, 실제 긍정적 인 비율 일 수도 있습니다.
계급 불균형에 대해 이야기 할 때 이해해야 할 미묘한 뉘앙스가 있습니다. 즉, 다음과 같은 이유로 데이터가 불균형입니까?
- 데이터 분포 자체가 불균형
어떤 경우에는 한 클래스가 다른 클래스보다 훨씬 더 많이 발생합니다. 그리고 괜찮습니다. 이 경우 특정 실수가 다른 실수보다 비용이 많이 드는지 확인해야합니다. 이것은 환자에서 치명적인 질병을 탐지하고 누군가가 테러리스트인지 알아내는 전형적인 예입니다. 이것은 짧은 답으로 되돌아갑니다. 어떤 실수가 다른 실수보다 비용이 많이 든다면, 더 높은 비용을 주어 실수를 "처벌"하는 것이 좋습니다. 따라서 더 나은 모델은 더 낮은 비용을 갖습니다. 모든 실수가 나쁘다면 비용에 민감한 모델을 사용해야하는 실질적인 이유는 없습니다.
또한 비용에 민감한 모델을 사용하는 것이 불균형 데이터 세트에만 국한되지는 않습니다. 데이터가 완벽하게 균형 잡힌 경우 이러한 모델을 사용할 수 있습니다.
- 데이터의 실제 분포를 나타내지 않습니다.
때로는 데이터의 실제 분포를 나타내지 않기 때문에 데이터가 "불균형"입니다. 이 경우 한 클래스의 "너무 많은"예제와 다른 클래스의 "너무 작은"예제가 있으므로 모델이 한 클래스에 비해 과도 / 부족하지 않도록해야합니다. 이 수업 중
한 실수가 다른 실수보다 나쁜 경우가 아닐 수 있으므로 비용을 사용하는 것과 다릅니다. 보이지 않는 데이터가 학습 한 데이터와 동일한 분포를 가지지 않으면 편향되어 모델에 도움이되지 않습니다.
훈련 데이터를 제공하고 목표가 무언가가 빨간색인지 파란색인지 추측하는 것입니다. 파란색을 빨간색으로 또는 빨간색으로 잘못 생각하더라도 큰 차이는 없습니다. 훈련 데이터에는 실제 상황에서 10 % 만 발생하는 90 %의 빨간색 인스턴스가 있습니다. 모델을 개선하려면이를 처리해야합니다.