Word2Vec vs. Sentence2Vec vs. Doc2Vec


18

최근에 Word2Vec , Sentence2VecDoc2Vec 이라는 용어를 발견 했으며 벡터 의미론을 처음 접했 을 때 혼란 스러웠습니다. 누군가이 방법의 차이점을 간단한 단어로 자세히 설명해 주시겠습니까? 각 방법에 가장 적합한 작업은 무엇입니까?

답변:


22

이름은 매우 간단하며 벡터 표현에 대한 명확한 아이디어를 제공해야합니다.

Word2Vec 알고리즘은 단어의 분산 의미 론적 표현을 만듭니다. 훈련에 대한 두 가지 주요 접근 방법이 있습니다 : 분산 단어 백과 건너 뛰기 그램 모델. 하나는 중심 단어를 사용하여 문맥 단어를 예측하는 반면, 다른 하나는 문맥 단어를 사용하여 단어를 예측하는 것을 포함합니다. 이에 대한 자세한 내용은 Mikolov의 논문을 참조하십시오 .

단어에 대한 기능 표현을 배우는 대신 문장이나 문서에 대해 학습하는 동일한 아이디어를 문장으로 확장하고 문서를 완성 할 수 있습니다. 그러나 SentenceToVec에 대한 일반적인 아이디어를 얻으려면 문장의 모든 단어에 대한 단어 벡터 표현의 수학적 평균으로 생각하십시오. SentenceToVec을 평균화하고 교육하지 않고도 매우 좋은 근사치를 얻을 수 있지만 물론 한계가 있습니다.

Doc2Vec은 문장이 문서로 간주 될 수 있기 때문에 SentenceToVec 또는 Word2Vec의 개념을 확장합니다. 훈련의 아이디어는 비슷합니다. 자세한 내용은 Mikolov의 Doc2Vec 용지 를 참조하십시오.

응용 프로그램에 오면 작업에 따라 다릅니다. Word2Vec은 단어 간의 의미 관계를 효과적으로 캡처하므로 단어 유사성을 계산하거나 감정 분석 등과 같은 다양한 NLP 작업에 기능으로 제공 할 수 있습니다. 그러나 단어는 너무 많이 캡처 할 수 있으므로 문장과 문서 사이의 관계가 필요한 경우가 있습니다 말뿐 아니라 예를 들어, 두 개의 스택 오버플로 질문이 서로 중복되는지 여부를 파악하려는 경우.

간단한 Google 검색을 통해 이러한 알고리즘을 다양하게 활용할 수 있습니다.


그렇다면 평균 단어 벡터와 doc2vec 사용의 차이점은 무엇입니까? doc2vec는 벡터를 만들면서 문장에서 단어의 주변을 설명합니까 (word2vec는 그렇지 않은 경우)?
John Strood

1
Doc2Vec은 단어와 함께 문서에 대해 무작위로 초기화 된 벡터를 학습합니다 (문서는 문장 일 수 있음). 단어 평균을 수동으로 평균화하면 전체 문서에서 학습하지 못하기 때문에 동일한 용량으로 수행되지 않습니다. 최근 문서 유사성 등을 다루는 동안 파라 그램 벡터가 많이 사용되었습니다.
Himanshu Rai
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.