«classification» 태그된 질문

새로운 데이터 세트 인스턴스가 속하는 카테고리를 식별하는지도 학습 인스턴스입니다.

3
비정형 텍스트 분류
구조화되지 않은 텍스트 문서, 즉 구조가 알려지지 않은 웹 사이트를 분류하려고합니다. 내가 분류하고있는 수업의 수는 제한되어 있습니다 (이 시점에서는 3 명 이하라고 생각합니다). 누구든지 내가 어떻게 시작할 수 있는지 제안 했습니까? 여기서 "단어"접근이 가능한가? 나중에 문서 구조 (아마도 의사 결정 트리)를 기반으로 다른 분류 단계를 추가 할 수 있습니다. Mahout과 …

2
이모티콘에 대한 감정 데이터
실험을 위해 우리는 사용하고 싶은 이모티콘 많은 지상 사실로 트윗 / 단순 양적 senitment 분석을 위해 데이터를 교육에 포함합니다. 트윗은 일반적으로 NLP가 제대로 작동하기에는 너무 구조화되어 있지 않습니다. 어쨌든 유니 코드 6.0에는 722 개의 이모지가 있으며, 유니 코드 7.0에는 또 다른 250 개가 추가 될 것입니다. 감정 주석이 포함 된 …

3
샘플 크기가 다른 여러 분류기의 성능 측정
현재 텍스트에서 추출한 다양한 엔터티에 여러 분류기를 사용하고 있으며 각 개별 분류 기가 주어진 데이터 집합에서 얼마나 잘 수행되는지에 대한 요약으로 정밀도 / 호출을 사용하고 있습니다. 이러한 분류기의 성능을 비슷한 방식으로 비교하는 의미있는 방법이 있는지 궁금하지만 분류되는 테스트 데이터의 각 엔터티 수를 고려합니까? 현재는 성능 측정으로 정밀도 / 호출을 사용하고 …

1
전역 압축 방법과 범용 압축 방법의 차이점은 무엇입니까?
압축 방법은 두 가지 주요 세트로 나눌 수 있음을 이해합니다. 글로벌 현지 첫 번째 세트는 처리중인 데이터에 관계없이 작동합니다. 즉, 데이터의 특성에 의존하지 않으므로 데이터 세트의 일부 (압축 자체 이전)에서 사전 처리를 수행 할 필요가 없습니다. 반면에 로컬 방법은 데이터를 분석하여 일반적으로 압축률을 향상시키는 정보를 추출합니다. 이 방법들 중 일부에 …

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
VC 치수를 계산하는 방법?
기계 학습을 공부하고 있는데 VC 치수를 계산하는 방법을 알고 싶습니다. 예를 들면 다음과 같습니다. h ( x ) = { 10만약 ≤X≤B그밖에 h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , 파라미터들( a , b ) ∈ R2(a,b)∈R2(a,b) ∈ R^2 . 그것의 …

4
Occam의 Razor 원리는 기계 학습에서 어떻게 작동합니까?
이미지에 표시된 다음 질문은 최근 시험 중 하나에서 요청되었습니다. 내가 Occam의 Razor 원칙을 올바르게 이해했는지 잘 모르겠습니다. 질문에 주어진 분포와 결정 경계에 따라 Occam 's Razor에 이어 두 경우 모두 결정 경계 B가 답이되어야합니다. Occam의 Razor에 따라 복잡한 분류기보다 알맞은 분류기를 선택하십시오. 내 이해가 정확하고 선택한 답변이 적절한 지 아닌지 …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
사전 훈련 된 CNN 분류기를 사용하여 다른 이미지 데이터 세트에 적용
당신은 어떻게 할 최적화 사전에 훈련 된 neural network 별도의 문제에 적용 할 수 있습니까? 사전 훈련 된 모델 에 더 많은 레이어를 추가 하고 데이터 세트에서 테스트 하시겠습니까? 예를 들어, 작업이 CNN 을 사용하여 배경 화면 그룹 을 분류하는 경우 이미지 분류 기인 경우에도 이미지 고양이와 개에 대해 훈련 …

2
데이터 세트를 분류 할 수 없다고 언제 말합니까?
나는 실제로 어떤 종류의 분류도 할 수없는 데이터 세트를 분석했습니다. 분류자를 얻을 수 있는지 확인하려면 일반적으로 다음 단계를 사용했습니다. 숫자 값에 대한 레이블의 상자 그림을 생성합니다. 클래스가 분리 가능한지 확인하기 위해 차원을 2 또는 3으로 줄이십시오. 때로는 LDA를 사용해보십시오. SVM 및 임의 포리스트에 맞게 조정하고 기능의 중요성을 살펴보고 기능이 의미가 …

2
컨볼 루션 신경망을 사용한 문서 분류
CNN (Convolutional Neural Network)을 사용하여 문서를 분류하려고합니다. 짧은 텍스트 / 문장에 대한 CNN은 많은 논문에서 연구되었습니다. 그러나 긴 텍스트 나 문서에 CNN을 사용한 논문은없는 것 같습니다. 내 문제는 문서의 기능이 너무 많다는 것입니다. 내 데이터 세트에서 각 문서에는 1000 개 이상의 토큰 / 단어가 있습니다. 각 예제를 CNN에 제공하기 위해 …

3
언밸런스 클래스 — 오탐을 최소화하는 방법?
이진 클래스 특성이있는 데이터 집합이 있습니다. +1 클래스 (암 양성)의 623 개의 인스턴스와 -1 클래스 (암 음성)의 101,671 개의 인스턴스가 있습니다. 다양한 알고리즘 (Naive Bayes, Random Forest, AODE, C4.5)을 시도했지만 모두 허용 할 수없는 거짓 음수 비율을 가지고 있습니다. 랜덤 포레스트는 전체 예측 정확도가 가장 높고 (99.5 %)가 음성 비율이 …

3
양수 및 레이블이없는 데이터 만 사용하여 이진 분류기를 만듭니다.
나는 2 개의 데이터 세트를 가지고 있는데, 하나는 탐지하고자하는 긍정적 인 인스턴스가 있고 다른 하나는 레이블이없는 인스턴스가 있습니다. 어떤 방법을 사용할 수 있습니까? 예를 들어, 구조화 된 이메일 특성 몇 가지를 기반으로 스팸 이메일 탐지를 이해하려고한다고 가정합니다. 스팸 이메일 1 개의 데이터 세트와 스팸 여부를 모르는 100000 개의 이메일 데이터 …

4
분류 규칙 생성을위한 알고리즘
따라서 분류 자에 의해 해결 된 기존의 문제 영역에 상당히 잘 맞는 머신 러닝 응용 프로그램의 가능성이 있습니다. 즉, 항목과 항목을 설명하는 속성 집합이 있습니다. 그러나 모델을 만드는 대신 Naive Bayes 또는 유사한 분류기에서와 같이 확률이 높으면 최종 사용자가 검토하고 수정할 수있는 대략적인 사람이 읽을 수있는 규칙 집합이되기를 원합니다. 연관 …

3
다자간 시스템에서 선거 결과를 계산하기 위해 어떤 회귀를 사용합니까?
의회 선거 결과를 예측하고 싶습니다. 내 결과는 각 당사자가받는 %입니다. 둘 이상의 당사자가 있으므로 로지스틱 회귀는 실행 가능한 옵션이 아닙니다. 각 당사자에 대해 별도의 회귀를 만들 수 있지만 그 경우 결과는 서로 독립적입니다. 결과의 합이 100 %임을 보장하지는 않습니다. 어떤 회귀 (또는 다른 방법)를 사용해야합니까? 특정 라이브러리를 통해 R 또는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.