데이터 과학 text-mining

5

"문서"라고 말하면 Wikipedia 기사 및 뉴스 기사와 같은 웹 페이지를 염두에두고 있습니다. 나는 바닐라 어휘 거리 메트릭 또는 최첨단 시맨틱 거리 메트릭 중 하나를 선호하는 답변을 선호합니다.

34 machine-learning data-mining nlp text-mining similarity

1

xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?

100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

이력서 데이터를 기반으로 작업 분류를 수행하려면 어떤 알고리즘을 사용해야합니까?

R에서 모든 일을하고 있습니다. 문제는 다음과 같습니다. 기본적으로 이력서 (CV) 목록이 있습니다. 일부 응시자는 이전에 업무 경험이 있고 일부는 그렇지 않습니다. 여기서 목표는 이력서의 텍스트를 기반으로 다른 작업 부문으로 분류하고 싶습니다. 나는 지원자가 경험이없는 학생 / 학생 인 경우에 특히 관심이 있으며, 졸업 후이 지원자가 속하는 직업 분야를 분류하기 위해 …

28 machine-learning classification nlp text-mining

3

문장에서 핵심 텍스트를 추출하는 일반적인 접근법 (nlp)

다음과 같은 문장이 주어집니다. Complimentary gym access for two for the length of stay ($12 value per person per day) 체육관 또는 체육관 이용이라는 단어를 식별하기 위해 어떤 일반적인 방법을 사용할 수 있습니까?

27 machine-learning nlp text-mining data-cleaning

3

딥 러닝 라이브러리를 사용하여 텍스트에서 키워드 / 구문 추출

아마도 이것은 너무 광범위하지만 텍스트 요약 작업에서 딥 러닝을 사용하는 방법에 대한 참조를 찾고 있습니다. 나는 표준 단어 빈도 접근법과 문장 순위를 사용하여 텍스트 요약을 이미 구현했지만이 작업에 딥 러닝 기술을 사용할 가능성을 탐색하고 싶습니다. 또한 감정 분석을 위해 CNN (Convolutional Neural Networks)을 사용하여 wildml.com에 제공된 일부 구현을 살펴 보았습니다 …

20 neural-network text-mining deep-learning beginner tensorflow

3

텍스트 분류와 주제 모델의 차이점은 무엇입니까?

기계 학습에서 클러스터링과 분류의 차이점을 알고 있지만 문서의 텍스트 분류와 주제 모델링의 차이점을 이해하지 못합니다. 문서를 통해 주제 모델링을 사용하여 주제를 식별 할 수 있습니까? 분류 방법을 사용하여 이러한 문서 내의 텍스트를 분류 할 수 있습니까?

20 classification text-mining topic-model

1

Hellinger Distance 란 무엇이며 언제 사용합니까?

Hellinger Distance에서 실제로 어떤 일이 일어나는지 알고 싶습니다 (간단한 용어로). 또한 Hellinger Distance를 사용할 수있는 유형의 문제를 알고 싶습니다. Hellinger Distance를 사용하면 어떤 이점이 있습니까?

19 machine-learning data-mining text-mining distance

3

초기 키워드를 기준으로 관련 단어 목록을 늘리는 방법은 무엇입니까?

최근 Google 스프레드 시트에서 사용할 수 있는 멋진 기능을 보았습니다 . "blue", "green", "yellow"와 같은 연속 된 셀에 몇 가지 관련 키워드를 작성하는 것으로 시작하면 유사한 키워드가 자동으로 생성됩니다 (이 경우 다른 색상). 이 YouTube 비디오 에서 더 많은 예제를보십시오 . 내 프로그램에서 이것을 재현하고 싶습니다. Freebase를 사용하려고 생각하고 다음과 …

19 nlp text-mining freebase

4

메타 데이터로 텍스트 문서에 주석을 달는 방법은 무엇입니까?

많은 텍스트 문서 (자연어, 구조화되지 않은)가있는 경우, 의미 론적 메타 데이터로 주석을 달 수있는 가능한 방법은 무엇입니까? 예를 들어 짧은 문서를 생각해보십시오. I saw the company's manager last day. 정보를 추출 할 수 있으려면 모호하지 않도록 추가 데이터로 주석을 달아야합니다. 이러한 메타 데이터를 찾는 프로세스는 문제가되지 않으므로 수동으로 수행한다고 가정하십시오. …

18 nlp metadata data-cleaning text-mining

2

Doc2Vec-단락에 레이블을 지정하는 방법 (gensim)

실제 관점에서 gensim에서 doc2vec로 문장 / 단락 / 문서에 레이블을 지정하는 방법에 대해 궁금합니다. 고유 한 레이블 (예 : "Sent_123")이있는 각 문장 / 문단 / 문서가 있어야합니까? "Sent_123"이라는 단일 특정 문장과 가장 유사한 단어 나 문장을 말하려는 경우 유용합니다. 내용에 따라 레이블을 반복 할 수 있습니까? 예를 들어, 각 문장 …

17 machine-learning text-mining word-embeddings word2vec

1

텍스트 클러스터링 알고리즘

의미에 따라 많은 양의 문장을 그룹으로 묶는 데 문제가 있습니다. 이것은 문장이 많고 그 의미를 기준으로 그룹화하려는 경우의 문제와 유사합니다. 이를 위해 어떤 알고리즘이 제안됩니까? 나는 미리 많은 수의 클러스터를 알지 못하고 (더 많은 데이터가 나올수록 클러스터가 변경 될 수 있음) 각 문장을 나타내는 데 일반적으로 어떤 기능이 사용됩니까? 이제 …

17 clustering text-mining algorithms scikit-learn

5

seaborn 히트 맵을 더 크게 만들기

corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 방법입니까?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

문서에서 가장 유익한 텍스트 부분 추출

현재 문서에 대한 대부분의 정보를 담고있는 텍스트 일부 추출에 대한 기사 나 토론이 있습니까? 예를 들어, 같은 도메인의 많은 문서 모음이 있습니다. 단일 문서에 대한 주요 정보를 담고있는 텍스트 부분이 있습니다. 해당 부분 중 일부를 추출하여 텍스트 요약으로 사용하고 싶습니다. 이와 같은 것을 달성하는 방법에 대한 유용한 문서가 있습니까? 이 …

16 nlp text-mining

4

우편 주소 퍼지 일치를 수행하는 방법은 무엇입니까?

형식이 다르거 나 철자가 틀린 경우 우편 주소를 일치시키는 방법을 알고 싶습니다. 지금까지 다른 솔루션을 찾았지만 솔루션이 상당히 오래되고 비효율적이라고 생각합니다. 나는 더 좋은 방법이 존재한다고 확신하므로 읽을만한 참고 문헌이 있다면 여러 사람이 관심을 가질 수있는 주제라고 확신합니다. 내가 찾은 해결책 (예는 R에 있음) : 한 단어를 다른 단어로 변환하기 …

14 text-mining data-cleaning

1

퍼지 토큰 시퀀스에서 문법 인식

주로 항목 목록이 포함 된 텍스트 문서가 있습니다. 각 항목은 이름, 성, 생년월일, 전화 번호, 도시, 직업 등 여러 유형의 여러 토큰 그룹입니다. 토큰은 단어 그룹입니다. 항목은 여러 줄에있을 수 있습니다. 문서의 항목은 거의 동일한 토큰 구문을 갖지만 반드시 반드시 동일 할 필요는 없습니다. 그것들은 아이템들 사이뿐만 아니라 아이템들 사이에 …

13 data-mining clustering text-mining time-series correlation

«text-mining» 태그된 질문