답변:
예, 사전 훈련 된 모델을 활용할 수 있습니다. 가장 유명한 것은 여기에서 찾을 수있는 GoogleNewsData 훈련 모델입니다.
사전 훈련 된 단어 및 문구 벡터 https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=sharing
그런 다음 gensim을 사용하여 아래와 같이 모델에서 이진 형식으로 벡터를로드 할 수 있습니다.
>>> model = Word2Vec.load_word2vec_format('/tmp/vectors.txt', binary=False) # C text format
>>> model = Word2Vec.load_word2vec_format('/tmp/vectors.bin', binary=True) # C binary format
다음은 영어 위키 백과에 대한 다른 사전 빌드 모델입니다.
출처 : https://github.com/idio/wiki2vec/
사전 빌드 된 모델 사용
Get python 2.7
Install gensim: pip install gensim
uncompress downloaded model: tar -xvf model.tar.gz
Load model in gensim:
from gensim.models import Word2Vec
model = Word2Vec.load("path/to/word2vec/en.model")
model.similarity('woman', 'man')
Stanford NLP Glove를 사용할 수도 있습니다
다음은 사전 훈련 된 word2vec 모델의 훌륭한 편집입니다.
추가 사전 훈련 된 모델 :
gensim 및 코드에 대한 자세한 내용은 https://radimrehurek.com/gensim/models/word2vec.html을 참조 하십시오.
비슷한 질문이있는 Quora 포럼
model = Word2Vec.load(fname) # you can continue training with the loaded model!
Stanford NLP 그룹에서 대규모 코퍼스 교육을 기반으로 한 분산 표현 (장갑) 을 직접 이용할 수 있습니다. 핫 인코딩 된 벡터 1 개를 사용한 다음 네트워크를 학습하여 포함을 가져 오는 대신 응용 프로그램에서 해당 단어 포함을 직접 사용할 수 있습니다. 작업이 너무 전문화되지 않은 경우이 임베딩 세트로 시작하면 실제로 잘 작동합니다.
그것은 것입니다 추가 훈련에서 당신을 저장 매개 변수의 수를 여기서 어휘의 크기이며, 당신이에 프로젝트에 원하는 내장 공간의 차원이다.m
from gensim.models import Word2Vec
# Word2Vec is full model which is trainable but takes larger memory
from gensim.models import KeyedVectors
# KeyedVectors is reduced vector model which is NOT trainable but takes less memory
model = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) #load pretrained google w2v
sen1 = 'w1 w2 w3'
sen2 = 'word1 word2 word3'
sentences = [[word for word in sen1.split()],[word for word in sen2.split()]]
total_examples = model_2.corpus_count
model_2 = Word2Vec(size=300, min_count=1) #initiate a full model
model_2.build_vocab(sentences) #add words in training dataset
#load words from pretrained google dataset
model_2.build_vocab([list(model.vocab.keys())], update=True)
model_2.intersect_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True, lockf=1.0)
#retrain pretrained w2v from new dataset
model_2.train(sentences, total_examples=total_examples, epochs=model_2.iter)