«unbalanced-classes» 태그된 질문

5
'균형'데이터 세트 또는 '대표'데이터 세트를 사용해야합니까?
나의 '머신 러닝'과제는 양성 인터넷 트래픽과 악성 트래픽을 분리하는 것입니다. 실제 시나리오에서 인터넷 트래픽의 대부분 (예 : 90 % 이상)은 양성입니다. 따라서 모델 훈련을 위해 유사한 데이터 설정을 선택해야한다고 생각했습니다. 그러나 나는 모델을 훈련시키기 위해 "클래스 밸런싱"데이터 접근 방식을 사용하여 양성 및 악성 트래픽의 동일한 수의 인스턴스를 암시하는 연구 논문을 …

4
불균형이 높은 데이터 세트 교육에 대한 빠른 안내
훈련 세트에서 약 1000 개의 양성 및 10000 개의 음성 샘플로 분류 문제가 있습니다. 따라서이 데이터 세트는 상당히 불균형합니다. 일반 임의 포리스트는 모든 테스트 샘플을 대다수 클래스로 표시하려고합니다. 서브 샘플링 및 가중 임의 숲에 대한 좋은 답변은 여기에 주어집니다 : 높은 바이어스 데이터 세트와 나무 앙상블 훈련의 의미는 무엇인가? RF …


4
바이어스가 높은 데이터 세트로 트리 앙상블을 훈련 할 때의 의미는 무엇입니까?
나는 매우 바이어스 된 이진 데이터 세트를 가지고 있습니다. 포지티브 클래스보다 네거티브 클래스의 예가 1000 배 더 많습니다. 이 데이터에 대해 Tree Ensemble (Extra Random Trees 또는 Random Forest)을 훈련시키고 싶지만, 긍정적 클래스의 충분한 예를 포함하는 훈련 데이터 세트를 생성하는 것은 어렵습니다. 긍정적 인 예와 부정적인 예의 수를 정규화하기 위해 …

2
텍스트 분류에 SMOTE를 어떻게 적용합니까?
SMOTE (Synthetic Minority Oversampling Technique)는 불균형 데이터 세트 문제에 사용되는 오버 샘플링 기술입니다. 지금까지 일반의 구조화 된 데이터에 적용하는 방법에 대한 아이디어가 있습니다. 그러나 텍스트 분류 문제에 적용 할 수 있습니까? 오버 샘플링해야하는 데이터 부분은 무엇입니까? 가 이미 다른 질문 그것에 대해,하지만이 답변이 없습니다. 이것을 시작하는 방법을 어디에서 배울 수 …

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
언밸런스 클래스 — 오탐을 최소화하는 방법?
이진 클래스 특성이있는 데이터 집합이 있습니다. +1 클래스 (암 양성)의 623 개의 인스턴스와 -1 클래스 (암 음성)의 101,671 개의 인스턴스가 있습니다. 다양한 알고리즘 (Naive Bayes, Random Forest, AODE, C4.5)을 시도했지만 모두 허용 할 수없는 거짓 음수 비율을 가지고 있습니다. 랜덤 포레스트는 전체 예측 정확도가 가장 높고 (99.5 %)가 음성 비율이 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.