나의 '머신 러닝'과제는 양성 인터넷 트래픽과 악성 트래픽을 분리하는 것입니다. 실제 시나리오에서 인터넷 트래픽의 대부분 (예 : 90 % 이상)은 양성입니다. 따라서 모델 훈련을 위해 유사한 데이터 설정을 선택해야한다고 생각했습니다. 그러나 나는 모델을 훈련시키기 위해 "클래스 밸런싱"데이터 접근 방식을 사용하여 양성 및 악성 트래픽의 동일한 수의 인스턴스를 암시하는 연구 논문을 보았습니다.
일반적으로 기계 학습 모델을 구축하는 경우 실제 문제를 나타내는 데이터 세트를 선택해야하거나 모델을 작성하는 데 더 적합한 균형 잡힌 데이터 세트를 사용해야합니까 (일부 분류자가 클래스 불균형에 적합하지 않기 때문에) 나에게 알려지지 않은 다른 이유로 인해)?
누군가가에 빛을 더 있나 장점 과 단점 의 선택 모두와 방법을 선택할 가고 어느 하나를 결정?