이것은 일반적인 NLP 질문과 비슷합니다. Word2Vec을 포함하는 단어를 훈련시키기위한 적절한 입력은 무엇입니까? 기사에 속하는 모든 문장이 모음에서 별도의 문서 여야합니까? 아니면 각 기사가 해당 말뭉치의 문서 여야합니까? 이것은 python과 gensim을 사용한 예제입니다.
코퍼스는 문장으로 나뉩니다.
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
코퍼스는 기사별로 나 :습니다 :
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
파이썬에서 Word2Vec 교육 :
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)