Word2Vec과 Doc2Vec은 모두 분산 표현입니까 아니면 분산 표현입니까?


10

분포 표현은 유사한 맥락에서 발생하는 단어가 유사한 의미를 갖는 경향이 있다는 분포 가설을 기반으로한다는 것을 읽었습니다.

Word2Vec과 Doc2Vec은 모두이 가설에 따라 모델링됩니다. 그러나, 원래의 논문에서, 심지어는 같은 제목되는 Distributed representation of words and phrasesDistributed representation of sentences and documents. 따라서 이러한 알고리즘은 분포 표현 또는 분산 표현을 기반으로합니다.

LDA 및 LSA와 같은 다른 모델은 어떻습니까?

답변:


5

효과적으로 Word2Vec / Doc2Vec은 distributional hypothesis각 단어의 컨텍스트가 근처에있는 단어를 기반으로합니다. 마찬가지로 LSA는 전체 문서를 컨텍스트로 사용합니다. 두 기술 모두 word embedding문제를 해결합니다 . 의미 적으로 관련된 단어를 서로 가깝게 유지하면서 단어를 연속 벡터 공간에 포함시킵니다.

반면에 LDA는 같은 문제를 해결하지 않습니다. 그들은 topic modeling일련의 문서에서 잠재 주제를 찾는 이라는 다른 문제를 처리 합니다.


Google 그룹으로부터 다른 관점에서 분산 및 배포라는 답변을 받았습니다. 벡터 공간의 분산 피처 측면에서 사용 및 분산 된 가설 측면에서 분포.
yazhi

예, 표현은 단어 벡터가 여러 개념을 캡처한다는 의미에서 분산되며 각 개념 자체는 벡터입니다. 예를 들어, 은 성별에서 두 가지 개념 을 캡처 하고 , 은 성별에서 캡처합니다 . 그래서 v q u e e n v k i n gv q u e e nv m a n - v w o m a nvkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman
Tu N.

2

Turian, Joseph, Lev Ratinov 및 Yoshua Bengio. " 단어 표현 : 반 감독 학습을위한 단순하고 일반적인 방법 " 전산 언어학 협회의 제 48 차 연례회의 절차. 전산 언어학 협회, 2010. 분포 표현과 분산 표현을 다음과 같이 정의합니다.

  • FW×CWFwwFcFFwWFwFd<<CFwwdgF

  • 분산 표현은 , 고밀도 저 차원, 그리고 실수입니다. 분산 단어 표현을 단어 임베딩이라고합니다. 임베딩의 각 차원은 단어의 잠재적 인 특징을 나타내며, 유용한 구문 및 시맨틱 특성을 희망적으로 포착합니다. 분산 표현은 차원 수에서 지수 수의 군집을 나타낼 수 있다는 점에서 간결합니다.

참고 : 단어 벡터, 단어 표현 및 벡터 임베딩의 차이점은 무엇입니까?


2
같은 혼란이 답에 남아 있습니다. 두 표현의 특성이 있습니다. 공통점이 무엇인지 봅시다. Distributional: WxC 크기의 행렬을 가지며 Wxd로 축소됩니다. 여기서 d는 포함 벡터 크기입니다. 창 크기를 사용하여 컨텍스트를 결정합니다. Distributed: 고밀도, 저 차원 벡터. 해당 차원에서 잠재 된 특성 (의미 적 특성)을 유지합니다.
yazhi

2

Google 그룹을 통한 Andrey Kutuzov의 답변은 만족 스럽습니다.

word2vec 알고리즘은 두 가지 모두를 기반으로한다고합니다.

사람들이 말할 때 distributional representation, 그들은 일반적으로 언어 적 측면을 의미합니다. 의미는 맥락입니다. 회사와 다른 유명한 따옴표로 단어를 알고 있습니다.

그러나 사람들이 말할 때 distributed representation대부분 언어학과 관련이 없습니다. 그것은 컴퓨터 과학 측면에 관한 것입니다. Mikolov 및 기타를 올바르게 이해하면 distributed논문 의 단어 는 벡터 표현의 각 단일 구성 요소가 자체 의미를 갖지 않음을 의미합니다. 해석 가능한 기능 (예 : word2vec의 경우 단어 컨텍스트)은 숨겨져 distributed해석 할 수없는 벡터 구성 요소 중에 숨겨져 있습니다 . 각 구성 요소는 여러 가지 해석 가능한 기능을 담당하며 각 해석 가능한 기능은 여러 구성 요소에 바인딩됩니다.

따라서 word2vec (및 doc2vec)는 어휘 의미론을 나타내는 방법으로 기술적으로 분산 표현을 사용합니다. 동시에 그것은 개념적으로 분포 가설을 기반으로합니다 : 그것은 분포 가설이 참 (단어 의미가 그들의 전형적인 맥락과 관련이 있기 때문에)에만 작동합니다.

그러나 물론 종종 용어 distributeddistributional상호 교환 가능하게 사용되어 오해가 증가합니다. :)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.