«word2vec» 태그된 질문

Word2vec은 고차원 공간에서 단어를 벡터로 나타내는 신경망입니다.

5
LDA vs 워드 2 벡
단어 유사성을 계산하기 위해 Latent Dirichlet Allocation 과 word2vec의 유사점이 무엇인지 이해하려고합니다 . 내가 이해하는 바와 같이, LDA는 단어를 잠재 주제 의 확률 벡터로 매핑하는 반면, word2vec는 실제 숫자 벡터로 매핑합니다 (점별 상호 정보의 특이 값 분해와 관련이 있습니다 . O. Levy, Y. Goldberg, "Neural Word Embedding" "암시 적 행렬 …

3
전체 문서에 단어 포함을 적용하여 피처 벡터를 얻습니다.
지도 학습에 사용하기에 적합한 단어를 포함하여 문서를 기능 벡터에 매핑하려면 어떻게해야합니까? 워드 삽입은 각각의 워드를 맵핑 벡터에 여기서, 일부하지 너무나 많은 수 (예를 들어, 500)이다. 널리 사용되는 단어 포함 은 word2vec 및 Glove 입니다.v ∈ R d d승wwv ∈ R디v∈Rdv \in \mathbb{R}^d디dd 문서를 분류하기 위해지도 학습을 적용하고 싶습니다. 현재 bag-of-words …


3
R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]
캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

1
word2vec에서 음성 샘플링은 어떻게 작동합니까?
나는 word2vec의 맥락에서 부정적인 샘플링의 개념을 이해하려고 노력했습니다. [음수] 샘플링에 대한 아이디어를 소화 할 수 없습니다. 예를 들어 Mikolov의 논문 에서 음수 샘플링 기대치는 다음과 같이 공식화됩니다. logσ(⟨w,c⟩)+k⋅EcN∼PD[logσ(−⟨w,cN⟩)].log⁡σ(⟨w,c⟩)+k⋅EcN∼PD[log⁡σ(−⟨w,cN⟩)].\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)]. 나는 왼쪽 용어 이해 ,하지만 난 부정적인 단어 컨텍스트 쌍을 샘플링의 개념을 …


4
음의 코사인 유사성 해석
내 질문은 어리석은 질문 일 수 있습니다. 그래서 미리 사과하겠습니다. Stanford NLP 그룹에 의해 사전 훈련 된 GLOVE 모델을 사용하려고했습니다 ( link ). 그러나 유사성 결과에 약간의 음수가 있음을 알았습니다. 즉각 단어 벡터 데이터 파일을 보라는 메시지가 나타납니다. 분명히, 단어 벡터의 값은 음수가 될 수있었습니다. 그것이 왜 코사인의 음의 유사성을 …

2
SpaCy의 .similarity 방법은 어떻게 계산됩니까?
이것이 올바른 스택 사이트라면 확실하지 않지만 여기에 있습니다. .similiarity 방법은 어떻게 작동합니까? 와우 spaCy는 위대하다! tfidf 모델이 더 쉬울 수 있지만 한 줄의 코드로 w2v가 가능합니까?! spaCy andrazhribernik 에 대한 10 줄의 튜토리얼에서 우리는 토큰, 전송, 단어 청크 및 문서에서 실행할 수있는 .similarity 방법을 보여줍니다. 후 nlp = spacy.load('en')와 doc …


3
Word2Vec의 스킵 그램 모델은 어떻게 출력 벡터를 생성합니까?
Word2Vec 알고리즘의 스킵 그램 모델을 이해하는 데 문제가 있습니다. 연속 단어 단위로 신경망에서 문맥 단어가 어떻게 "맞을"수 있는지 쉽게 알 수 있습니다. 기본적으로 각각의 one-hot 인코딩 표현에 입력 행렬 W를 곱한 후 평균을 계산하기 때문입니다. 그러나 skip-gram의 경우 one-hot encoding과 입력 행렬을 곱하여 입력 단어 벡터 만 얻은 다음 컨텍스트 …

1
성능 측면에서 단어 포함 알고리즘
약 6 천만 개의 문구를 벡터 공간 에 삽입하려고 시도하고 그 사이 의 코사인 유사성 을 계산 하려고합니다. 나는 유니 그램 CountVectorizer과 bigram을 생성하는 맞춤형 내장 토큰 화 기능과 함께 sklearn을 사용 하고 있습니다. 의미있는 표현을 얻으려면 행 수에서 선형으로 엄청난 수의 열을 허용해야합니다. 이로 인해 엄청나게 희소 행렬이 발생하여 …

2
치수를 줄이기 위해 t-SNE의 매개 변수를 결정하는 방법은 무엇입니까?
나는 단어 임베딩에 매우 익숙하다. 학습 후 문서가 어떻게 보이는지 시각화하고 싶습니다. 나는 t-SNE가 그것을위한 접근법이라는 것을 읽었다. 포함 크기로 250 크기의 100K 문서가 있습니다. 사용 가능한 여러 패키지도 있습니다. 그러나 t-SNE의 경우 반복 횟수 나 알파 값 또는 퍼펙 스 빌리티 값을 더 잘 알고 있어야합니다. 이러한 하이퍼 파라미터입니까 …

2
LSTM을 사용하여 언어 모델링 작업에서 알 수없는 단어 처리
자연어 처리 (NLP) 작업의 경우 단어에 대한 포함으로 word2vec 벡터 를 종종 사용합니다 . 그러나, 단어 2vec 벡터에 의해 포착되지 않는 많은 알 수없는 단어가있을 수 있습니다. 단순히이 단어가 훈련 데이터에서 자주 보이지 않기 때문입니다 (많은 구현에서는 단어를 단어에 추가하기 전에 최소 개수를 사용합니다). 특히 단어의 철자가 틀린 Twitter와 같은 …

1
word2vec에서 교차 엔트로피 손실의 유도
cs224d 온라인 스탠포드 클래스 코스 자료 의 첫 번째 문제 세트 를 통해 노력 하고 있는데 문제 3A와 관련하여 문제가 있습니다. softmax 예측 함수 및 교차 엔트로피 손실 함수와 함께 스킵 그램 word2vec 모델을 사용할 때 예측 된 단어 벡터에 대한 기울기를 계산하려고합니다. 따라서 softmax 기능이 주어집니다. wi^=Pr(wordi∣r^,w)=exp(wTir^)∑|V|jexp(wTjr^)wi^=Pr(wordi∣r^,w)=exp⁡(wiTr^)∑j|V|exp(wjTr^) \hat{w_i} = …

1
스킵 그램 word2vec에 대한 그라디언트
나는 스탠포드 NLP 딥 러닝 수업의 과제 할당 문제 http://cs224d.stanford.edu/assignment1/assignment1_soln의 문제를 겪고 있습니다 . 중심 단어의 벡터에 대한 미분을 찾고있는 3a의 답을 이해하려고합니다. 스킵 그램에 대한 중심 단어 c 에 해당 하는 예측 단어 벡터 가 주어 지고 단어 예측은 word2vec 모델에서 찾은 softmax 함수로 이루어집니다.vcvcv_{c} y^o=p(o|c)=exp(uTovc)∑Ww=1exp(uTwvc)y^o=p(o|c)=exp(uoTvc)∑w=1Wexp(uwTvc)\hat{y}^{o} = p(o | …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.