«word-embeddings» 태그된 질문

단어 임베딩은 단어가 어휘 크기에 비해 낮은 차원의 공간에서 실수 벡터에 매핑되는 NLP의 언어 모델링 및 특징 학습 기술 세트의 총칭입니다.

4
NCE (Noise Contrastive Estimation) 손실에 대한 직관적 인 설명?
이 두 가지 출처에서 NCE (후보 샘플링 형식)에 대해 읽었습니다. 텐서 플로우 쓰기 원본 용지 누군가 다음을 도울 수 있습니까? NCE의 작동 방식에 대한 간단한 설명 (위의 구문 분석 및 이해가 어려워서 직관적으로 제시되는 수학으로 이어질 수 있음) 위의 포인트 1 이후에 네거티브 샘플링과 다른 점을 자연스럽게 직관적으로 설명합니다. 수식에 …

3
Word2Vec에 대한 더 나은 입력은 무엇입니까?
이것은 일반적인 NLP 질문과 비슷합니다. Word2Vec을 포함하는 단어를 훈련시키기위한 적절한 입력은 무엇입니까? 기사에 속하는 모든 문장이 모음에서 별도의 문서 여야합니까? 아니면 각 기사가 해당 말뭉치의 문서 여야합니까? 이것은 python과 gensim을 사용한 예제입니다. 코퍼스는 문장으로 나뉩니다. SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", …

2
Word2vec 모델을 사용하여 단어 예측
"나는 열 때 ?? 문을 자동으로 가열 시작을" 가능한 단어 목록을 얻고 싶습니다 ?? ?? 확률로. word2vec 모델에 사용 된 기본 개념은 주변 문맥에서 단어를 "예측"하는 것입니다. 모델이 구축되면 새로운 문장에 대한 예측 작업을 수행하는 올바른 컨텍스트 벡터 작업은 무엇입니까? 단순히 선형 합계입니까? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

4
단어의 의미 적 유사성을 어떻게 측정 할 수 있습니까?
단어의 의미 적 유사성을 알아내는 가장 좋은 방법은 무엇입니까? Word2Vec은 괜찮지 만 이상적이지는 않습니다. # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer …

2
Doc2Vec-단락에 레이블을 지정하는 방법 (gensim)
실제 관점에서 gensim에서 doc2vec로 문장 / 단락 / 문서에 레이블을 지정하는 방법에 대해 궁금합니다. 고유 한 레이블 (예 : "Sent_123")이있는 각 문장 / 문단 / 문서가 있어야합니까? "Sent_123"이라는 단일 특정 문장과 가장 유사한 단어 나 문장을 말하려는 경우 유용합니다. 내용에 따라 레이블을 반복 할 수 있습니까? 예를 들어, 각 문장 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
사전 훈련 된 모델 가중치로 새로운 word2vec 모델을 초기화하는 방법은 무엇입니까?
Word2vector 모델을 사용하고 훈련시키기 위해 Python에서 Gensim Library를 사용하고 있습니다. 최근에 (GoogleNewDataset 사전 훈련 모델)과 같은 사전 훈련 된 word2vec 모델을 사용하여 모델 가중치를 초기화하려고했습니다. 나는 몇 주에 어려움을 겪고있다. 이제 gesim에는 사전 훈련 된 모델 가중치로 모델의 가중치를 초기화하는 데 도움이되는 기능이 있음을 검색했습니다. 아래에 언급되어 있습니다. reset_from(other_model) Borrow …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
보이지 않는 단어를 식별하고 이미 훈련 된 데이터와 연관시키기 위해 word2vec를 사용하는 방법
나는 word2vec gensim 모델을 작업하고 있었고 정말 흥미 롭습니다. 모델을 확인할 때 알 수없는 / 보이지 않는 단어가 훈련 된 모델에서 유사한 용어를 얻을 수있는 방법을 찾는 데 흥미가 있습니다. 이게 가능해? word2vec를 조정할 수 있습니까? 또는 훈련 말뭉치에는 내가 비슷한 것을 찾고 싶은 모든 단어가 있어야합니다.

3
Word2Vec과 Doc2Vec은 모두 분산 표현입니까 아니면 분산 표현입니까?
분포 표현은 유사한 맥락에서 발생하는 단어가 유사한 의미를 갖는 경향이 있다는 분포 가설을 기반으로한다는 것을 읽었습니다. Word2Vec과 Doc2Vec은 모두이 가설에 따라 모델링됩니다. 그러나, 원래의 논문에서, 심지어는 같은 제목되는 Distributed representation of words and phrases과 Distributed representation of sentences and documents. 따라서 이러한 알고리즘은 분포 표현 또는 분산 표현을 기반으로합니다. LDA …

1
텍스트 분류 문제 : Word2Vec / NN이 최선의 방법입니까?
텍스트 단락을 제공하여 시스템을 분류하고 컨텍스트를 식별 할 수있는 시스템을 설계하려고합니다. 사용자 생성 텍스트 단락 (댓글 / 질문 / 응답 등)으로 훈련 트레이닝 세트의 각 항목은로 태그됩니다. 예를 들어 ( "카테고리 1", "텍스트 단락") 수백 가지 범주가 있습니다 그러한 시스템을 구축하는 가장 좋은 방법은 무엇입니까? 몇 가지 다른 옵션을 살펴본 …

1
word2vec에는 얼마나 많은 교육 데이터가 필요합니까?
다른 출처에서 언급 한 동일한 단어의 차이점을 비교하고 싶습니다. 즉, "민주주의"와 같이 잘못 정의 된 단어의 사용에서 저자가 어떻게 다른가. 간단한 계획은 "민주주의"라는 용어를 평문으로 언급하는 책을 가져 가라 각각의 책에서 교체 democracy로democracy_%AuthorName% word2vec이 책 에서 모델 훈련 사이의 거리를 계산 democracy_AuthorA, democracy_AuthorB및 기타 레이블이 재 지정은 "민주주의"의 언급 따라서 …

2
word2vec의 단어 벡터의 특징
감정 분석을 시도하고 있습니다. 단어를 단어 벡터로 변환하기 위해 word2vec 모델을 사용하고 있습니다. '문장'이라는 목록에 모든 문장이 있고이 문장을 다음과 같이 word2vec로 전달한다고 가정합니다. model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 나는 단어 벡터에 멍청하기 때문에 두 가지 의심이 있습니다. 1- 피처 수를 300으로 설정하면 단어 벡터의 피처가 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.