답변:
이름은 매우 간단하며 벡터 표현에 대한 명확한 아이디어를 제공해야합니다.
Word2Vec 알고리즘은 단어의 분산 의미 론적 표현을 만듭니다. 훈련에 대한 두 가지 주요 접근 방법이 있습니다 : 분산 단어 백과 건너 뛰기 그램 모델. 하나는 중심 단어를 사용하여 문맥 단어를 예측하는 반면, 다른 하나는 문맥 단어를 사용하여 단어를 예측하는 것을 포함합니다. 이에 대한 자세한 내용은 Mikolov의 논문을 참조하십시오 .
단어에 대한 기능 표현을 배우는 대신 문장이나 문서에 대해 학습하는 동일한 아이디어를 문장으로 확장하고 문서를 완성 할 수 있습니다. 그러나 SentenceToVec에 대한 일반적인 아이디어를 얻으려면 문장의 모든 단어에 대한 단어 벡터 표현의 수학적 평균으로 생각하십시오. SentenceToVec을 평균화하고 교육하지 않고도 매우 좋은 근사치를 얻을 수 있지만 물론 한계가 있습니다.
Doc2Vec은 문장이 문서로 간주 될 수 있기 때문에 SentenceToVec 또는 Word2Vec의 개념을 확장합니다. 훈련의 아이디어는 비슷합니다. 자세한 내용은 Mikolov의 Doc2Vec 용지 를 참조하십시오.
응용 프로그램에 오면 작업에 따라 다릅니다. Word2Vec은 단어 간의 의미 관계를 효과적으로 캡처하므로 단어 유사성을 계산하거나 감정 분석 등과 같은 다양한 NLP 작업에 기능으로 제공 할 수 있습니다. 그러나 단어는 너무 많이 캡처 할 수 있으므로 문장과 문서 사이의 관계가 필요한 경우가 있습니다 말뿐 아니라 예를 들어, 두 개의 스택 오버플로 질문이 서로 중복되는지 여부를 파악하려는 경우.
간단한 Google 검색을 통해 이러한 알고리즘을 다양하게 활용할 수 있습니다.