Word2Vec에 대한 더 나은 입력은 무엇입니까?


22

이것은 일반적인 NLP 질문과 비슷합니다. Word2Vec을 포함하는 단어를 훈련시키기위한 적절한 입력은 무엇입니까? 기사에 속하는 모든 문장이 모음에서 별도의 문서 여야합니까? 아니면 각 기사가 해당 말뭉치의 문서 여야합니까? 이것은 python과 gensim을 사용한 예제입니다.

코퍼스는 문장으로 나뉩니다.

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

코퍼스는 기사별로 나 :습니다 :

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

파이썬에서 Word2Vec 교육 :

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

답변:


14

이 질문에 대한 답변은 그것이 달려 있다는 입니다. 기본 접근 방식은 토큰 화 된 문장을 전달하는 것입니다 ( SentenceCorpus예에서와 같이). 목표와 대상을보고있는 내용에 따라 대신 전체 기사를 사용하여 포함을 배우고 싶을 수 있습니다. 이것은 미리 알지 못할 수도 있으므로 임베딩의 품질을 평가하는 방법에 대해 생각하고 어떤 종류의 임베딩이 작업에 더 유용한 지 알아보기 위해 몇 가지 실험을 수행해야합니다. 에스).


바로 그 자리에 모델에 임베딩을 사용했으며 앞에서 언급했듯이 전체 기사를 사용할 때 모델의 예측 성능이 크게 향상되었습니다. 따라서 어떤 경우 문장으로 훈련하는 것이 우수할까요?
wacax

1
비슷한 벡터를 가진 단어들이 서로 어떻게 관련되어 있는지보고보아야합니다. 문맥 윈도우의 크기와 문맥 유형에 대해 약간의 연구가 있었는데, 이는 작은 윈도우 (그리고 아마도 문장과 같은 더 작은 문서 크기)는 주제와 비슷하게 기능적으로 유사한 단어를 만들 수 있음을 시사합니다. 미국 주 및 정부 관련 단어와 같은)는 더 유사한 벡터를가집니다. 저는 2014 년부터 Omer Levy와 Yoav Goldberg의 Dependency-Based Word Embeddings를 주로 인용하고 있습니다.
NBartley

1

@NBartley의 답변을 보완합니다. 누구 든지이 질문을 겪습니다. Spark2.2에서 word2vec의 입력으로 기사 / 문장을 사용하려고 시도했지만 결과는 다음과 같습니다.

사용하는 문장을 입력으로 :

여기에 이미지 설명을 입력하십시오

사용 기사 입력으로 :

여기에 이미지 설명을 입력하십시오


0

전자의 경우 gensim에는 Word2Vec 클래스가 있습니다. 후자의 경우 Doc2Vec.

http://rare-technologies.com/doc2vec-tutorial/


3
doc2vec는 문장이 아닌 기사 모음에서 word2vec를 수행하는 것과 실질적으로 다릅니다. doc2vec는 단어가 아닌 기사 자체의 표현을 배울 것입니다.
jamesmf
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.