«word2vec» 태그된 질문

word2vec는 텍스트를 처리하는 2 계층 신경망입니다. 단어를 입력으로 취하고 이에 따라 벡터를 출력합니다. Continuous Bag of Word와 skipgram 모델 구현의 조합을 사용합니다.

4
단어의 의미 적 유사성을 어떻게 측정 할 수 있습니까?
단어의 의미 적 유사성을 알아내는 가장 좋은 방법은 무엇입니까? Word2Vec은 괜찮지 만 이상적이지는 않습니다. # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer …

5
문장 유사성을위한 가장 실용적인 알고리즘
나는 S1과 S2의 두 문장을 가지고 있는데, 둘 다 단어 수가 (일반적으로) 15 미만입니다. 구현하기 쉬운 가장 실질적으로 유용하고 성공적인 (머신 러닝) 알고리즘은 무엇입니까 (아키텍처가 Google Inception 등과 같이 복잡하지 않으면 신경망은 괜찮습니다). 너무 많은 시간을 투자하지 않고 잘 작동하는 알고리즘을 찾고 있습니다. 성공적이고 사용하기 쉬운 알고리즘이 있습니까? 이는 클러스터링 …

2
Doc2Vec-단락에 레이블을 지정하는 방법 (gensim)
실제 관점에서 gensim에서 doc2vec로 문장 / 단락 / 문서에 레이블을 지정하는 방법에 대해 궁금합니다. 고유 한 레이블 (예 : "Sent_123")이있는 각 문장 / 문단 / 문서가 있어야합니까? "Sent_123"이라는 단일 특정 문장과 가장 유사한 단어 나 문장을 말하려는 경우 유용합니다. 내용에 따라 레이블을 반복 할 수 있습니까? 예를 들어, 각 문장 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
사전 훈련 된 모델 가중치로 새로운 word2vec 모델을 초기화하는 방법은 무엇입니까?
Word2vector 모델을 사용하고 훈련시키기 위해 Python에서 Gensim Library를 사용하고 있습니다. 최근에 (GoogleNewDataset 사전 훈련 모델)과 같은 사전 훈련 된 word2vec 모델을 사용하여 모델 가중치를 초기화하려고했습니다. 나는 몇 주에 어려움을 겪고있다. 이제 gesim에는 사전 훈련 된 모델 가중치로 모델의 가중치를 초기화하는 데 도움이되는 기능이 있음을 검색했습니다. 아래에 언급되어 있습니다. reset_from(other_model) Borrow …

4
Gensim Word2Vec 구현에서 신기원의 수
Word2Vec 구현에 iter매개 변수 가 있습니다gensim gensim.models.word2vec.Word2Vec (문장 = 없음, 크기 = 100, alpha = 0.025, window = 5, min_count = 5, max_vocab_size = None, sample = 0, seed = 1, workers = 1, min_alpha = 0.0001, sg 클래스 = 1, hs = 1, 음수 = 0, cbow_mean = 0, …

4
word2vec 모델을 훈련하는 동안 전이 학습을 이용할 수 있습니까?
Google 뉴스 데이터 와 같이 이미 훈련 된 모델의 사전 훈련 된 가중치를 찾고 있습니다 . 충분한 양 (10GB 등)의 데이터로 새로운 모델을 훈련하는 것이 어렵다는 것을 알게되었습니다. 따라서 사전 학습 된 레이어 가중치를 얻고 도메인 별 단어에서 해당 가중치를 재교육 할 수있는 전송 학습의 이점을 원합니다. 따라서 교육에 소요되는 …

2
컨볼 루션 신경망을 사용한 문서 분류
CNN (Convolutional Neural Network)을 사용하여 문서를 분류하려고합니다. 짧은 텍스트 / 문장에 대한 CNN은 많은 논문에서 연구되었습니다. 그러나 긴 텍스트 나 문서에 CNN을 사용한 논문은없는 것 같습니다. 내 문제는 문서의 기능이 너무 많다는 것입니다. 내 데이터 세트에서 각 문서에는 1000 개 이상의 토큰 / 단어가 있습니다. 각 예제를 CNN에 제공하기 위해 …

3
Word2Vec과 Doc2Vec은 모두 분산 표현입니까 아니면 분산 표현입니까?
분포 표현은 유사한 맥락에서 발생하는 단어가 유사한 의미를 갖는 경향이 있다는 분포 가설을 기반으로한다는 것을 읽었습니다. Word2Vec과 Doc2Vec은 모두이 가설에 따라 모델링됩니다. 그러나, 원래의 논문에서, 심지어는 같은 제목되는 Distributed representation of words and phrases과 Distributed representation of sentences and documents. 따라서 이러한 알고리즘은 분포 표현 또는 분산 표현을 기반으로합니다. LDA …

2
word2vec의 기능 매트릭스는 무엇입니까?
저는 신경망의 초보자이며 현재 word2vec 모델을 탐색하고 있습니다. 그러나 기능 매트릭스가 정확히 무엇인지 이해하기가 어렵습니다. 첫 번째 행렬은 주어진 단어에 대한 one-hot 인코딩 벡터라는 것을 이해할 수 있지만 두 번째 행렬은 무엇을 의미합니까? 보다 구체적으로, 이들 각각의 값 (즉, 17, 24, 1 등)은 무엇을 의미합니까?

2
word2vec의 단어 벡터의 특징
감정 분석을 시도하고 있습니다. 단어를 단어 벡터로 변환하기 위해 word2vec 모델을 사용하고 있습니다. '문장'이라는 목록에 모든 문장이 있고이 문장을 다음과 같이 word2vec로 전달한다고 가정합니다. model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) 나는 단어 벡터에 멍청하기 때문에 두 가지 의심이 있습니다. 1- 피처 수를 300으로 설정하면 단어 벡터의 피처가 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.