CBOW보다 자주 사용하지 않는 단어에 대해 건너 뛰기 그램이 더 좋은 이유는 무엇입니까?


답변:


14

CBOW에서 문맥 단어의 벡터는 중심 단어를 예측하기 전에 평균화됩니다. 스킵 그램에서는 매입 벡터의 평균화가 없습니다. 예측 과정에서 벡터가 다른 문맥 단어와 평균화되지 않으면 희귀 단어에 대한 더 나은 표현을 모델이 배울 수있는 것처럼 보입니다.


13

차이점에 대한 지나치게 단순화되고 순진한 이해가 있습니다.

아시다시피 CBOW 는 상황에 따라 단어를 예측하는 방법을 배우고 있습니다. 또는 문맥을보고 대상 단어의 확률을 최대화하십시오. 그리고 이것은 드문 단어에게는 문제가됩니다. 예를 들어, 문맥 yesterday was really [...] dayCBOW 모델은 아마도 단어가 beautiful또는 라고 말할 것입니다 nice. 같은 단어 delightful는 가장 가능성이 높은 단어를 예측하도록 설계되었으므로 모델에 대한 관심이 훨씬 줄어 듭니다. 희귀 단어는 더 빈번한 단어로 많은 예제에서 부드럽게 처리됩니다.

한편, 스킵 그램 은 상황을 예측하도록 설계되었습니다. 단어가 주어지면 delightful그것을 이해하고 우리에게 말해야합니다. 큰 확률이 yesterday was really [...] day있거나 상황이 이거나 다른 관련 상황 이 있음을 알려줍니다 . 으로 건너 뛰기 그램 단어는 delightful단어와 경쟁하려고하지 않을 것이다 beautiful대신, delightful+context쌍 새 관찰로 처리됩니다. 이로 인해 스킵 그램 에는 더 많은 데이터가 필요하므로 희귀 한 단어조차 이해하는 법을 배우게됩니다.


0

CBOW가 skip-gram https://arxiv.org/abs/1609.08293 보다 드문 단어에 더 좋습니다 . https://code.google.com/p/word2vec/에 명시된 소유권 주장의 출처가 무엇인지 궁금합니다 .


나는 Mikolov가 그 툴킷을 직접 썼다고 믿는다. 흥미롭게도 그의 논문에서 papers.nips.cc/paper/… 그는 "우리는 훈련 중 빈번한 단어의 서브 샘플링이 상당한 속도 향상 (약 2x-10x)을 나타내고 덜 빈번한 단어 표현의 정확성을 향상 시킨다는 것을 보여줍니다. " 서브 샘플링 확장명을 가진 스킵 그램.
케빈
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.