«information-retrieval» 태그된 질문

2
텍스트 분류 : 다른 종류의 기능 결합
내가 다루는 문제는 짧은 텍스트를 여러 클래스로 분류하는 것입니다. 내 현재 접근 방식은 tf-idf 가중 항 주파수를 사용하고 간단한 선형 분류기 (로지스틱 회귀)를 배우는 것입니다. 이것은 합리적으로 잘 작동합니다 (테스트 세트에서 약 90 % 매크로 F-1, 훈련 세트에서 거의 100 %). 큰 문제는 보이지 않는 단어 / n- 그램입니다. 분포 …


5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
시끄러운 문자열 목록에서 표준 문자열 추출
나는 수천 개의 문자열 목록을 가지고 있으며 각 목록에는 약 10 개의 문자열이 있습니다. 주어진 목록에있는 대부분의 문자열은 매우 유사하지만 일부 문자열은 다른 문자열과 거의 관련이 없으며 일부 문자열에는 관련이없는 단어가 포함되어 있습니다. 그것들은 표준 문자열의 시끄러운 변형으로 간주 될 수 있습니다. 각 목록을이 표준 문자열로 변환하는 알고리즘이나 라이브러리를 찾고 …

5
좋은 단어 중지 목록을 만드는 방법
중지 단어 목록을 큐 레이트하는 방법에 대한 힌트를 찾고 있습니다. 누군가가 사전 처리 및 필터링을 위해 데이터 세트 자체에서 중지 단어 목록을 추출하는 좋은 방법을 알고 있거나 추천 할 수 있습니까? 자료: 수년에 걸쳐 가변 길이 (검색어 및 전체 문장 (최대 200 자))의 방대한 양의 인간 텍스트 입력. 이 텍스트에는 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.