왜 단어 2vec에서 건너 뛰기 그램이 CBOW보다 드문 단어에 더 좋은지 궁금합니다. https://code.google.com/p/word2vec/ 에서 소유권 주장을 읽었습니다 .
왜 단어 2vec에서 건너 뛰기 그램이 CBOW보다 드문 단어에 더 좋은지 궁금합니다. https://code.google.com/p/word2vec/ 에서 소유권 주장을 읽었습니다 .
답변:
차이점에 대한 지나치게 단순화되고 순진한 이해가 있습니다.
아시다시피 CBOW 는 상황에 따라 단어를 예측하는 방법을 배우고 있습니다. 또는 문맥을보고 대상 단어의 확률을 최대화하십시오. 그리고 이것은 드문 단어에게는 문제가됩니다. 예를 들어, 문맥 yesterday was really [...] day
CBOW 모델은 아마도 단어가 beautiful
또는 라고 말할 것입니다 nice
. 같은 단어 delightful
는 가장 가능성이 높은 단어를 예측하도록 설계되었으므로 모델에 대한 관심이 훨씬 줄어 듭니다. 희귀 단어는 더 빈번한 단어로 많은 예제에서 부드럽게 처리됩니다.
한편, 스킵 그램 은 상황을 예측하도록 설계되었습니다. 단어가 주어지면 delightful
그것을 이해하고 우리에게 말해야합니다. 큰 확률이 yesterday was really [...] day
있거나 상황이 이거나 다른 관련 상황 이 있음을 알려줍니다 . 으로 건너 뛰기 그램 단어는 delightful
단어와 경쟁하려고하지 않을 것이다 beautiful
대신, delightful+context
쌍 새 관찰로 처리됩니다. 이로 인해 스킵 그램 에는 더 많은 데이터가 필요하므로 희귀 한 단어조차 이해하는 법을 배우게됩니다.
CBOW가 skip-gram https://arxiv.org/abs/1609.08293 보다 드문 단어에 더 좋습니다 . https://code.google.com/p/word2vec/에 명시된 소유권 주장의 출처가 무엇인지 궁금합니다 .