«text-mining» 태그된 질문

패턴을 인식하여 텍스트 형식의 데이터에서 정보를 추출하는 것과 관련된 데이터 마이닝의 하위 집합을 나타냅니다. 텍스트 마이닝의 목표는 종종 주어진 문서를 자동으로 여러 범주 중 하나로 분류하고이 성능을 동적으로 개선하여 기계 학습의 예가되는 것입니다. 이러한 유형의 텍스트 마이닝의 한 예는 전자 메일에 사용되는 스팸 필터입니다.


1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
이력서 데이터를 기반으로 작업 분류를 수행하려면 어떤 알고리즘을 사용해야합니까?
R에서 모든 일을하고 있습니다. 문제는 다음과 같습니다. 기본적으로 이력서 (CV) 목록이 있습니다. 일부 응시자는 이전에 업무 경험이 있고 일부는 그렇지 않습니다. 여기서 목표는 이력서의 텍스트를 기반으로 다른 작업 부문으로 분류하고 싶습니다. 나는 지원자가 경험이없는 학생 / 학생 인 경우에 특히 관심이 있으며, 졸업 후이 지원자가 속하는 직업 분야를 분류하기 위해 …


3
딥 러닝 라이브러리를 사용하여 텍스트에서 키워드 / 구문 추출
아마도 이것은 너무 광범위하지만 텍스트 요약 작업에서 딥 러닝을 사용하는 방법에 대한 참조를 찾고 있습니다. 나는 표준 단어 빈도 접근법과 문장 순위를 사용하여 텍스트 요약을 이미 구현했지만이 작업에 딥 러닝 기술을 사용할 가능성을 탐색하고 싶습니다. 또한 감정 분석을 위해 CNN (Convolutional Neural Networks)을 사용하여 wildml.com에 제공된 일부 구현을 살펴 보았습니다 …



3
초기 키워드를 기준으로 관련 단어 목록을 늘리는 방법은 무엇입니까?
최근 Google 스프레드 시트에서 사용할 수 있는 멋진 기능을 보았습니다 . "blue", "green", "yellow"와 같은 연속 된 셀에 몇 가지 관련 키워드를 작성하는 것으로 시작하면 유사한 키워드가 자동으로 생성됩니다 (이 경우 다른 색상). 이 YouTube 비디오 에서 더 많은 예제를보십시오 . 내 프로그램에서 이것을 재현하고 싶습니다. Freebase를 사용하려고 생각하고 다음과 …

4
메타 데이터로 텍스트 문서에 주석을 달는 방법은 무엇입니까?
많은 텍스트 문서 (자연어, 구조화되지 않은)가있는 경우, 의미 론적 메타 데이터로 주석을 달 수있는 가능한 방법은 무엇입니까? 예를 들어 짧은 문서를 생각해보십시오. I saw the company's manager last day. 정보를 추출 할 수 있으려면 모호하지 않도록 추가 데이터로 주석을 달아야합니다. 이러한 메타 데이터를 찾는 프로세스는 문제가되지 않으므로 수동으로 수행한다고 가정하십시오. …

2
Doc2Vec-단락에 레이블을 지정하는 방법 (gensim)
실제 관점에서 gensim에서 doc2vec로 문장 / 단락 / 문서에 레이블을 지정하는 방법에 대해 궁금합니다. 고유 한 레이블 (예 : "Sent_123")이있는 각 문장 / 문단 / 문서가 있어야합니까? "Sent_123"이라는 단일 특정 문장과 가장 유사한 단어 나 문장을 말하려는 경우 유용합니다. 내용에 따라 레이블을 반복 할 수 있습니까? 예를 들어, 각 문장 …

1
텍스트 클러스터링 알고리즘
의미에 따라 많은 양의 문장을 그룹으로 묶는 데 문제가 있습니다. 이것은 문장이 많고 그 의미를 기준으로 그룹화하려는 경우의 문제와 유사합니다. 이를 위해 어떤 알고리즘이 제안됩니까? 나는 미리 많은 수의 클러스터를 알지 못하고 (더 많은 데이터가 나올수록 클러스터가 변경 될 수 있음) 각 문장을 나타내는 데 일반적으로 어떤 기능이 사용됩니까? 이제 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
문서에서 가장 유익한 텍스트 부분 추출
현재 문서에 대한 대부분의 정보를 담고있는 텍스트 일부 추출에 대한 기사 나 토론이 있습니까? 예를 들어, 같은 도메인의 많은 문서 모음이 있습니다. 단일 문서에 대한 주요 정보를 담고있는 텍스트 부분이 있습니다. 해당 부분 중 일부를 추출하여 텍스트 요약으로 사용하고 싶습니다. 이와 같은 것을 달성하는 방법에 대한 유용한 문서가 있습니까? 이 …
16 nlp  text-mining 

4
우편 주소 퍼지 일치를 수행하는 방법은 무엇입니까?
형식이 다르거 나 철자가 틀린 경우 우편 주소를 일치시키는 방법을 알고 싶습니다. 지금까지 다른 솔루션을 찾았지만 솔루션이 상당히 오래되고 비효율적이라고 생각합니다. 나는 더 좋은 방법이 존재한다고 확신하므로 읽을만한 참고 문헌이 있다면 여러 사람이 관심을 가질 수있는 주제라고 확신합니다. 내가 찾은 해결책 (예는 R에 있음) : 한 단어를 다른 단어로 변환하기 …

1
퍼지 토큰 시퀀스에서 문법 인식
주로 항목 목록이 포함 된 텍스트 문서가 있습니다. 각 항목은 이름, 성, 생년월일, 전화 번호, 도시, 직업 등 여러 유형의 여러 토큰 그룹입니다. 토큰은 단어 그룹입니다. 항목은 여러 줄에있을 수 있습니다. 문서의 항목은 거의 동일한 토큰 구문을 갖지만 반드시 반드시 동일 할 필요는 없습니다. 그것들은 아이템들 사이뿐만 아니라 아이템들 사이에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.