텍스트 분류 문제 : Word2Vec / NN이 최선의 방법입니까?


10

텍스트 단락을 제공하여 시스템을 분류하고 컨텍스트를 식별 할 수있는 시스템을 설계하려고합니다.

  1. 사용자 생성 텍스트 단락 (댓글 / 질문 / 응답 등)으로 훈련
  2. 트레이닝 세트의 각 항목은로 태그됩니다. 예를 들어 ( "카테고리 1", "텍스트 단락")
  3. 수백 가지 범주가 있습니다

그러한 시스템을 구축하는 가장 좋은 방법은 무엇입니까? 몇 가지 다른 옵션을 살펴본 결과 다음은 가능한 솔루션 목록입니다. 현재 Word2Vec / NN이 최고의 솔루션입니까?

  1. 평균 Word2Vec 데이터가 제공되는 재귀 신경 텐서 네트워크
  2. RNTN과 The Paragraph Vector ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
  3. Deep Belief Network에서 사용되는 TF-IDF
  4. TF-IDF 및 로지스틱 회귀
  5. 단어 가방과 순진한 베이 즈 분류

어떤 종류의 카테고리를 명확히 할 수 있습니까? 새로운 카테고리 및 / 또는 보이지 않는 단어를 처리 할 수 ​​있어야합니까? 드문 용어 및 보이지 않는 범주에 대한 요구 사항은 시스템 설계에 도움이됩니다.
NBartley

감사합니다 @NBartley. 보이지 않는 단어도 가능성이 높습니다. 입력 된 매개 변수는 사용자가 생성 한 컨텐츠이므로, 보이지 않는 새로운 단어의 가능성은 매우 높습니다. 카테고리가 정의되지만 시간이 지남에 따라 카테고리 목록을 확장해야합니다. 감사합니다
Shankar

sense2vec too arxiv.org/abs/1511.06388을 확인해야합니다 . 간단히 말해서 품사 태그와 결합 된 단어 임베딩입니다. 그것은 동음 이의어를 명확하게함으로써 단어 임베딩을보다 정확하게 만들었다 고보고되었다. 분류 작업에서 성능을 향상시키는 지 확인하는 것이 흥미로울 것입니다.
wacax

답변:


5

1) TFIDF 벡터의 최대 엔트로피 (Logistic Regression)는 많은 NLP 분류 작업을위한 좋은 출발점입니다.

2) Word2vec은 확실히 모델 1과 비교해 볼만한 가치가 있습니다. 나는 문장 / 문단을보기 위해 Doc2Vec 맛을 사용하는 것이 좋습니다.

Quoc Le와 Tomas Mikolov. 문장과 문서의 분산 표현. http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python)에는 훌륭한 Doc2vec 모델이 있습니다.


감사합니다 @rushimg. 카테고리가 밀접하게 관련되어있는 경우, 즉 입력으로 사용되는 텍스트의 파라에 많은 양의 공통 단어가있는 경우 두 가지 방법 중 문맥을 이해하고 두 가지를 구별하는 데 더 나은 방법은 무엇입니까?
Shankar

max-ent 모델의 단어 백을 제거한다는 사실 때문에 Doc2Vec 모델을 사용합니다. tf-idf가 max-ent 모델의 기능으로 사용되면 일반적인 단어의 영향도 줄어 듭니다. 나는 두 가지 방법을 모두 시도하고 조정하는 것이 최선의 행동 과정이라고 생각합니다.
rushimg
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.