다른 출처에서 언급 한 동일한 단어의 차이점을 비교하고 싶습니다. 즉, "민주주의"와 같이 잘못 정의 된 단어의 사용에서 저자가 어떻게 다른가.
간단한 계획은
- "민주주의"라는 용어를 평문으로 언급하는 책을 가져 가라
- 각각의 책에서 교체
democracy
로democracy_%AuthorName%
word2vec
이 책 에서 모델 훈련- 사이의 거리를 계산
democracy_AuthorA
,democracy_AuthorB
및 기타 레이블이 재 지정은 "민주주의"의 언급
따라서 각 저자의 "민주주의"는 자체 벡터를 가져와 비교에 사용됩니다.
그러나 word2vec
신뢰할 수있는 벡터를 훈련시키기 위해서는 여러 권의 책 (각각 레이블이 지정된 단어가 책의 하위 집합에서만 발생)이 필요합니다. 공식 페이지는 단어의 수십억을 포함하여 데이터 세트를 권장합니다.
방금 한 저자의 책의 일부가 얼마나 큰지 물어보고 싶었 word2vec
습니까?
1
귀하가 민주주의 주제에 대해서만 사용하고있는 책이 그렇지 않은 경우, 책 내용 사이의 더 큰 차이로 인해 거리 측정법이 엉망이되지 않을 수 있습니까? 이것은 문제가 매우 높은 차원의 공간에 있고 차원의 저주의 손에 닿아 서 생기는 부작용입니다. 관심있는 단어 주위에 작은 텍스트 영역 만 사용하면 도움이되지만 여전히 차원이 큰 문제입니다.
—
image_doctor
예, 그것이 그 본질입니다. 여기에 아마 생각이 나쁜 은유와 함께 간다. 책의 장이 색깔로 표현되어 있다고 상상해보십시오. 그리고 책 전체가 장의 모든 색이 섞인 것으로 표현되었습니다. 서유럽의 민주주의에 관한 책은 그 장의 합으로 전체적으로 붉은 색조로 끝날 것입니다. 우리가 파란색으로 관광을 대표한다면, 쿠바의 관광에 관한 책은 민주주의에 관한 유일한 장과 경제 발전에 영향을 미치며 강한 푸른 색조를 가질 것입니다. 따라서 두 권의 책은 전체적으로 볼 때 매우 다르게 보일 것입니다.
—
image_doctor
그것은 두 권의 책에 대한 벡터가 피처 공간에서 멀리 떨어져 있기 때문에 데이터 과학자가 말한 것을 말하기가 더 접근하기 쉬운 방법입니다. 데이터를 가지고 놀지 않고도 필요한 예제 수를 미리 정량화하는 것은 어렵지만 언어는 미묘하고 계층화되어 있으므로 최대한 많은 것을 원할 것입니다. 시도 할 때까지 궁극적으로 알 수 없습니다. 구체적인 대답은 아니지만 누군가가 비슷한 일을 직접 경험하지 않는 한 아마도 가장 좋은 결과 일 것입니다.
—
image_doctor
word2vec는 이미 "관심 단어 주위에 작은 텍스트 영역"만 사용합니다.
—
jamesmf
window
맥락에서 많은 단어가 워드의 모델을 학습하는 데 사용되는 방법 파라미터 세트 승
@politicalscientist이 프로젝트를 마치지 않았습니다.
—
Anton Tarasenko