Word2Vec에 대한 더 나은 입력은 무엇입니까?

22

이것은 일반적인 NLP 질문과 비슷합니다. Word2Vec을 포함하는 단어를 훈련시키기위한 적절한 입력은 무엇입니까? 기사에 속하는 모든 문장이 모음에서 별도의 문서 여야합니까? 아니면 각 기사가 해당 말뭉치의 문서 여야합니까? 이것은 python과 gensim을 사용한 예제입니다.

코퍼스는 문장으로 나뉩니다.

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

코퍼스는 기사별로 나 :습니다 :

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

파이썬에서 Word2Vec 교육 :

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

nlp word-embeddings

— 와카
소스

14

이 질문에 대한 답변은 그것이 달려 있다는 것 입니다. 기본 접근 방식은 토큰 화 된 문장을 전달하는 것입니다 ( SentenceCorpus예에서와 같이). 목표와 대상을보고있는 내용에 따라 대신 전체 기사를 사용하여 포함을 배우고 싶을 수 있습니다. 이것은 미리 알지 못할 수도 있으므로 임베딩의 품질을 평가하는 방법에 대해 생각하고 어떤 종류의 임베딩이 작업에 더 유용한 지 알아보기 위해 몇 가지 실험을 수행해야합니다. 에스).

— NBartley
소스

바로 그 자리에 모델에 임베딩을 사용했으며 앞에서 언급했듯이 전체 기사를 사용할 때 모델의 예측 성능이 크게 향상되었습니다. 따라서 어떤 경우 문장으로 훈련하는 것이 우수할까요?

— wacax

1

비슷한 벡터를 가진 단어들이 서로 어떻게 관련되어 있는지보고보아야합니다. 문맥 윈도우의 크기와 문맥 유형에 대해 약간의 연구가 있었는데, 이는 작은 윈도우 (그리고 아마도 문장과 같은 더 작은 문서 크기)는 주제와 비슷하게 기능적으로 유사한 단어를 만들 수 있음을 시사합니다. 미국 주 및 정부 관련 단어와 같은)는 더 유사한 벡터를가집니다. 저는 2014 년부터 Omer Levy와 Yoav Goldberg의 Dependency-Based Word Embeddings를 주로 인용하고 있습니다.

— NBartley

1

@NBartley의 답변을 보완합니다. 누구 든지이 질문을 겪습니다. Spark2.2에서 word2vec의 입력으로 기사 / 문장을 사용하려고 시도했지만 결과는 다음과 같습니다.

사용하는 문장을 입력으로 :

사용 기사 입력으로 :

— 재커리
소스

0

전자의 경우 gensim에는 Word2Vec 클래스가 있습니다. 후자의 경우 Doc2Vec.

http://rare-technologies.com/doc2vec-tutorial/

3

doc2vec는 문장이 아닌 기사 모음에서 word2vec를 수행하는 것과 실질적으로 다릅니다. doc2vec는 단어가 아닌 기사 자체의 표현을 배울 것입니다.

— jamesmf