word2vec에는 얼마나 많은 교육 데이터가 필요합니까?


10

다른 출처에서 언급 한 동일한 단어의 차이점을 비교하고 싶습니다. 즉, "민주주의"와 같이 잘못 정의 된 단어의 사용에서 저자가 어떻게 다른가.

간단한 계획은

  1. "민주주의"라는 용어를 평문으로 언급하는 책을 가져 가라
  2. 각각의 책에서 교체 democracydemocracy_%AuthorName%
  3. word2vec이 책 에서 모델 훈련
  4. 사이의 거리를 계산 democracy_AuthorA, democracy_AuthorB및 기타 레이블이 재 지정은 "민주주의"의 언급

따라서 각 저자의 "민주주의"는 자체 벡터를 가져와 비교에 사용됩니다.

그러나 word2vec신뢰할 수있는 벡터를 훈련시키기 위해서는 여러 권의 책 (각각 레이블이 지정된 단어가 책의 하위 집합에서만 발생)이 필요합니다. 공식 페이지는 단어의 수십억을 포함하여 데이터 세트를 권장합니다.

방금 한 저자의 책의 일부가 얼마나 큰지 물어보고 싶었 word2vec습니까?


1
귀하가 민주주의 주제에 대해서만 사용하고있는 책이 그렇지 않은 경우, 책 내용 사이의 더 큰 차이로 인해 거리 측정법이 엉망이되지 않을 수 있습니까? 이것은 문제가 매우 높은 차원의 공간에 있고 차원의 저주의 손에 닿아 서 생기는 부작용입니다. 관심있는 단어 주위에 작은 텍스트 영역 만 사용하면 도움이되지만 여전히 차원이 큰 문제입니다.
image_doctor

1
예, 그것이 그 본질입니다. 여기에 아마 생각이 나쁜 은유와 함께 간다. 책의 장이 색깔로 표현되어 있다고 상상해보십시오. 그리고 책 전체가 장의 모든 색이 섞인 것으로 표현되었습니다. 서유럽의 민주주의에 관한 책은 그 장의 합으로 전체적으로 붉은 색조로 끝날 것입니다. 우리가 파란색으로 관광을 대표한다면, 쿠바의 관광에 관한 책은 민주주의에 관한 유일한 장과 경제 발전에 영향을 미치며 강한 푸른 색조를 가질 것입니다. 따라서 두 권의 책은 전체적으로 볼 때 매우 다르게 보일 것입니다.
image_doctor

1
그것은 두 권의 책에 대한 벡터가 피처 공간에서 멀리 떨어져 있기 때문에 데이터 과학자가 말한 것을 말하기가 더 접근하기 쉬운 방법입니다. 데이터를 가지고 놀지 않고도 필요한 예제 수를 미리 정량화하는 것은 어렵지만 언어는 미묘하고 계층화되어 있으므로 최대한 많은 것을 원할 것입니다. 시도 할 때까지 궁극적으로 알 수 없습니다. 구체적인 대답은 아니지만 누군가가 비슷한 일을 직접 경험하지 않는 한 아마도 가장 좋은 결과 일 것입니다.
image_doctor

1
word2vec는 이미 "관심 단어 주위에 작은 텍스트 영역"만 사용합니다. window맥락에서 많은 단어가 워드의 모델을 학습하는 데 사용되는 방법 파라미터 세트
jamesmf

1
@politicalscientist이 프로젝트를 마치지 않았습니다.
Anton Tarasenko

답변:


1

doc2vec (또는 단락 / 컨텍스트 벡터) 가이 문제에 적합하다고 생각됩니다.

간단히 말해서 단어 벡터 외에도 중심 또는 문맥 단어를 예측하는 데 사용되는 "컨텍스트 벡터"(필자의 경우 포함)를 추가합니다.

즉, "민주주의"에 관한 모든 데이터의 이점을 누릴 수있을뿐만 아니라 해당 저자에 대한 임베딩을 추출 할 수 있으며, 각 저자의 편견을 분석하여 각 저자의 편견을 분석 할 수 있습니다.

gensim의 구현을 사용할 수 있습니다 . 이 문서에는 원본 논문에 대한 링크가 포함되어 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.