내 질문은 어리석은 질문 일 수 있습니다. 그래서 미리 사과하겠습니다.
Stanford NLP 그룹에 의해 사전 훈련 된 GLOVE 모델을 사용하려고했습니다 ( link ). 그러나 유사성 결과에 약간의 음수가 있음을 알았습니다.
즉각 단어 벡터 데이터 파일을 보라는 메시지가 나타납니다. 분명히, 단어 벡터의 값은 음수가 될 수있었습니다. 그것이 왜 코사인의 음의 유사성을 보았는지 설명했습니다.
나는 주파수 벡터의 코사인 유사성의 개념에 익숙하며, 그 값은 [0, 1]에 묶여있다. 나는 벡터 사이의 각도에 따라 내적과 코사인 함수가 양수 또는 음수 일 수 있다는 사실을 알고 있습니다. 그러나 나는이 부정적인 코사인 유사성을 이해하고 해석하는 데 어려움을 겪고 있습니다.
예를 들어, -0.1의 유사성을 제공하는 단어 쌍이 있으면 유사성이 0.05 인 다른 쌍보다 덜 유사합니까? -0.9와 0.8의 유사성을 비교하면 어떻습니까?
아니면 와 최소 각도 차이의 절대 값을보아야 합니까? 점수의 절대 값?
많은 감사합니다.
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
이 둘의 유일한 차이점은 상호 곱셈되고있는 상관 편차 (모멘트)가 평균에서 나온 반면 코사인 편차는 원래 0에서 온 것입니다. 즉, 값이 그대로 .