데이터 과학 unbalanced-classes

5

나의 '머신 러닝'과제는 양성 인터넷 트래픽과 악성 트래픽을 분리하는 것입니다. 실제 시나리오에서 인터넷 트래픽의 대부분 (예 : 90 % 이상)은 양성입니다. 따라서 모델 훈련을 위해 유사한 데이터 설정을 선택해야한다고 생각했습니다. 그러나 나는 모델을 훈련시키기 위해 "클래스 밸런싱"데이터 접근 방식을 사용하여 양성 및 악성 트래픽의 동일한 수의 인스턴스를 암시하는 연구 논문을 …

48 machine-learning dataset unbalanced-classes

4

불균형이 높은 데이터 세트 교육에 대한 빠른 안내

훈련 세트에서 약 1000 개의 양성 및 10000 개의 음성 샘플로 분류 문제가 있습니다. 따라서이 데이터 세트는 상당히 불균형합니다. 일반 임의 포리스트는 모든 테스트 샘플을 대다수 클래스로 표시하려고합니다. 서브 샘플링 및 가중 임의 숲에 대한 좋은 답변은 여기에 주어집니다 : 높은 바이어스 데이터 세트와 나무 앙상블 훈련의 의미는 무엇인가? RF …

29 machine-learning classification dataset unbalanced-classes

4

XGBoost를 통한 불평형 멀티 클래스 데이터

이 배포판에는 3 개의 수업이 있습니다. Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 그리고 xgboost분류에 사용 하고 있습니다. 라는 매개 변수가 있음을 알고 scale_pos_weight있습니다. 그러나 '멀티 클래스'의 경우 어떻게 처리되며 어떻게 올바르게 설정할 수 있습니까?

20 classification xgboost multiclass-classification unbalanced-classes

4

바이어스가 높은 데이터 세트로 트리 앙상블을 훈련 할 때의 의미는 무엇입니까?

나는 매우 바이어스 된 이진 데이터 세트를 가지고 있습니다. 포지티브 클래스보다 네거티브 클래스의 예가 1000 배 더 많습니다. 이 데이터에 대해 Tree Ensemble (Extra Random Trees 또는 Random Forest)을 훈련시키고 싶지만, 긍정적 클래스의 충분한 예를 포함하는 훈련 데이터 세트를 생성하는 것은 어렵습니다. 긍정적 인 예와 부정적인 예의 수를 정규화하기 위해 …

14 machine-learning feature-selection unbalanced-classes

2

텍스트 분류에 SMOTE를 어떻게 적용합니까?

SMOTE (Synthetic Minority Oversampling Technique)는 불균형 데이터 세트 문제에 사용되는 오버 샘플링 기술입니다. 지금까지 일반의 구조화 된 데이터에 적용하는 방법에 대한 아이디어가 있습니다. 그러나 텍스트 분류 문제에 적용 할 수 있습니까? 오버 샘플링해야하는 데이터 부분은 무엇입니까? 가 이미 다른 질문 그것에 대해,하지만이 답변이 없습니다. 이것을 시작하는 방법을 어디에서 배울 수 …

14 unbalanced-classes text smote

1

몇 개의 LSTM 셀을 사용해야합니까?

사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

언밸런스 클래스 — 오탐을 최소화하는 방법?

이진 클래스 특성이있는 데이터 집합이 있습니다. +1 클래스 (암 양성)의 623 개의 인스턴스와 -1 클래스 (암 음성)의 101,671 개의 인스턴스가 있습니다. 다양한 알고리즘 (Naive Bayes, Random Forest, AODE, C4.5)을 시도했지만 모두 허용 할 수없는 거짓 음수 비율을 가지고 있습니다. 랜덤 포레스트는 전체 예측 정확도가 가장 높고 (99.5 %)가 음성 비율이 …

11 classification random-forest decision-trees unbalanced-classes

«unbalanced-classes» 태그된 질문