«nlp» 태그된 질문

자연어 처리 (NLP)는 컴퓨터와 인간 (자연) 언어 간의 상호 작용과 관련된 컴퓨터 과학, 인공 지능 및 언어학 분야입니다. 따라서 NLP는 인간과 컴퓨터의 상호 작용 영역과 관련이 있습니다. NLP의 많은 과제는 자연 언어 이해, 즉 컴퓨터가 인간 또는 자연 언어 입력에서 의미를 도출 할 수있게하는 것과 관련이 있으며 다른 문제는 자연 언어 생성과 관련이 있습니다.

4
Latent Dirichlet Allocation vs Hierarchical Dirichlet Process
Latent Dirichlet Allocation (LDA) 및 Hierarchical Dirichlet Process (HDP) 는 모두 주제 모델링 프로세스입니다. 가장 큰 차이점은 LDA는 주제 수를 지정해야하며 HDP는 그렇지 않다는 것입니다. 왜 이렇게이다? 그리고 두 주제 모델링 방법의 차이점, 장단점은 무엇입니까?
49 nlp  topic-model  lda 


1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
이력서 데이터를 기반으로 작업 분류를 수행하려면 어떤 알고리즘을 사용해야합니까?
R에서 모든 일을하고 있습니다. 문제는 다음과 같습니다. 기본적으로 이력서 (CV) 목록이 있습니다. 일부 응시자는 이전에 업무 경험이 있고 일부는 그렇지 않습니다. 여기서 목표는 이력서의 텍스트를 기반으로 다른 작업 부문으로 분류하고 싶습니다. 나는 지원자가 경험이없는 학생 / 학생 인 경우에 특히 관심이 있으며, 졸업 후이 지원자가 속하는 직업 분야를 분류하기 위해 …


4
명명 된 엔터티 인식을위한 Word2Vec
Google의 word2vec 구현을 사용하여 명명 된 엔티티 인식 시스템을 구축하려고합니다. 구조를 통해 역 전파되는 재귀 신경망은 명명 된 엔티티 인식 작업에 적합하지만 해당 유형의 모델에 대한 적절한 구현 또는 적절한 자습서를 찾을 수는 없습니다. 비정형 코퍼스로 작업하고 있기 때문에 NLTK 및 이와 유사한 도구의 표준 NER 도구는 성능이 매우 떨어지며 …


3
변압기 모델에서 위치 인코딩은 무엇입니까?
나는 ML을 처음 접했고 이것이 나의 첫 번째 질문이므로 내 질문이 어리 석다면 죄송합니다. 나는 종이를 읽고 이해하려고 노력하고 있습니다. 주의는 당신이 필요한 전부 이며 그 안에는 그림이 있습니다. 위치 인코딩 이 무엇인지 모르겠습니다 . 유투브 동영상을 들으면서 단어의 의미와 위치를 모두 포함하고 있으며 관련이 있음을 알게되었습니다.s i n ( …

3
Word2Vec에 대한 더 나은 입력은 무엇입니까?
이것은 일반적인 NLP 질문과 비슷합니다. Word2Vec을 포함하는 단어를 훈련시키기위한 적절한 입력은 무엇입니까? 기사에 속하는 모든 문장이 모음에서 별도의 문서 여야합니까? 아니면 각 기사가 해당 말뭉치의 문서 여야합니까? 이것은 python과 gensim을 사용한 예제입니다. 코퍼스는 문장으로 나뉩니다. SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", …

3
Gensim으로 FastText 사전 훈련 된 모델을 어떻게로드합니까?
여기 Fasttext model 에서 fastText pretrained 모델을로드하려고했습니다 . wiki.simple.en을 사용 하고 있습니다 from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) 그러나 다음과 같은 오류가 표시됩니다. Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File …
21 nlp  gensim 

2
Word2vec 모델을 사용하여 단어 예측
"나는 열 때 ?? 문을 자동으로 가열 시작을" 가능한 단어 목록을 얻고 싶습니다 ?? ?? 확률로. word2vec 모델에 사용 된 기본 개념은 주변 문맥에서 단어를 "예측"하는 것입니다. 모델이 구축되면 새로운 문장에 대한 예측 작업을 수행하는 올바른 컨텍스트 벡터 작업은 무엇입니까? 단순히 선형 합계입니까? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

4
단어의 의미 적 유사성을 어떻게 측정 할 수 있습니까?
단어의 의미 적 유사성을 알아내는 가장 좋은 방법은 무엇입니까? Word2Vec은 괜찮지 만 이상적이지는 않습니다. # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer …

3
초기 키워드를 기준으로 관련 단어 목록을 늘리는 방법은 무엇입니까?
최근 Google 스프레드 시트에서 사용할 수 있는 멋진 기능을 보았습니다 . "blue", "green", "yellow"와 같은 연속 된 셀에 몇 가지 관련 키워드를 작성하는 것으로 시작하면 유사한 키워드가 자동으로 생성됩니다 (이 경우 다른 색상). 이 YouTube 비디오 에서 더 많은 예제를보십시오 . 내 프로그램에서 이것을 재현하고 싶습니다. Freebase를 사용하려고 생각하고 다음과 …

4
메타 데이터로 텍스트 문서에 주석을 달는 방법은 무엇입니까?
많은 텍스트 문서 (자연어, 구조화되지 않은)가있는 경우, 의미 론적 메타 데이터로 주석을 달 수있는 가능한 방법은 무엇입니까? 예를 들어 짧은 문서를 생각해보십시오. I saw the company's manager last day. 정보를 추출 할 수 있으려면 모호하지 않도록 추가 데이터로 주석을 달아야합니다. 이러한 메타 데이터를 찾는 프로세스는 문제가되지 않으므로 수동으로 수행한다고 가정하십시오. …

3
비공식 텍스트에서 명명 된 엔터티 인식을위한 데이터 집합
나는 비공식 텍스트 (트위트와 비슷한 것)에서 명명 된 엔티티를 추출하기 위해 모델을 훈련시키기 위해 레이블이 지정된 데이터 세트를 검색하고 있습니다. 대문자 및 문법이 종종 내 데이터 세트의 문서에서 부족하기 때문에 오늘날의 최신 엔티티 인식 시스템이라는 뉴스 기사 및 저널 항목보다 약간 "비공식적 인"도메인 데이터를 찾고 있습니다. 훈련. 어떤 추천? 지금까지 …
18 dataset  nlp 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.