5
'균형'데이터 세트 또는 '대표'데이터 세트를 사용해야합니까?
나의 '머신 러닝'과제는 양성 인터넷 트래픽과 악성 트래픽을 분리하는 것입니다. 실제 시나리오에서 인터넷 트래픽의 대부분 (예 : 90 % 이상)은 양성입니다. 따라서 모델 훈련을 위해 유사한 데이터 설정을 선택해야한다고 생각했습니다. 그러나 나는 모델을 훈련시키기 위해 "클래스 밸런싱"데이터 접근 방식을 사용하여 양성 및 악성 트래픽의 동일한 수의 인스턴스를 암시하는 연구 논문을 …