나는 스탠포드 NLP 딥 러닝 수업의 과제 할당 문제 http://cs224d.stanford.edu/assignment1/assignment1_soln의 문제를 겪고 있습니다 .
중심 단어의 벡터에 대한 미분을 찾고있는 3a의 답을 이해하려고합니다.
스킵 그램에 대한 중심 단어 c 에 해당 하는 예측 단어 벡터 가 주어 지고 단어 예측은 word2vec 모델에서 찾은 softmax 함수로 이루어집니다.
여기서 w 는 w 번째 단어를 (w = 1, ..., W)는 어휘의 모든 단어에 대한 "출력"단어 벡터입니다. 이 예측에 교차 엔트로피 비용이 적용되고 단어 o 가 예상 단어라고 가정합니다.
여기서 는 모든 출력 벡터의 행렬이며 는 단어의 예측의 열 벡터이며 y 는 one-hot 레이블입니다. 또한 열 벡터입니다.
교차 엔트로피가
따라서 중심 벡터의 기울기에 대한 답은
누군가 나에게 이것에 도달하는 단계를 보여줄 수 있습니까? 이 질문을 참조로 사용 했습니다. word2vec에서 교차 엔트로피 손실의 파생물 이지만 를 알고 싶습니다대표.