왜 단어 2vec의 CBOW 및 스킵 그램 모델에서 자주 사용하지 않는 단어에 대해 계층 적 softmax가 더 나은 단어인지, 음수 샘플링이 더 나은지 궁금합니다. https://code.google.com/p/word2vec/에 대한 소유권 주장을 읽었습니다 .
왜 단어 2vec의 CBOW 및 스킵 그램 모델에서 자주 사용하지 않는 단어에 대해 계층 적 softmax가 더 나은 단어인지, 음수 샘플링이 더 나은지 궁금합니다. https://code.google.com/p/word2vec/에 대한 소유권 주장을 읽었습니다 .
답변:
나는 word2vec의 전문가가 아니라 Rong, X. (2014)를 읽을 때 . word2vec 매개 변수 학습 설명 하고 내 자신의 NN 경험을 통해 다음과 같은 추론을 단순화합니다.
두 가지 방법은 이론적으로 배타적이지 않지만 어쨌든 빈번하고 드문 경우에 더 나은 이유 인 것 같습니다.