텍스트 단락을 제공하여 시스템을 분류하고 컨텍스트를 식별 할 수있는 시스템을 설계하려고합니다.
- 사용자 생성 텍스트 단락 (댓글 / 질문 / 응답 등)으로 훈련
- 트레이닝 세트의 각 항목은로 태그됩니다. 예를 들어 ( "카테고리 1", "텍스트 단락")
- 수백 가지 범주가 있습니다
그러한 시스템을 구축하는 가장 좋은 방법은 무엇입니까? 몇 가지 다른 옵션을 살펴본 결과 다음은 가능한 솔루션 목록입니다. 현재 Word2Vec / NN이 최고의 솔루션입니까?
- 평균 Word2Vec 데이터가 제공되는 재귀 신경 텐서 네트워크
- RNTN과 The Paragraph Vector ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- Deep Belief Network에서 사용되는 TF-IDF
- TF-IDF 및 로지스틱 회귀
- 단어 가방과 순진한 베이 즈 분류
어떤 종류의 카테고리를 명확히 할 수 있습니까? 새로운 카테고리 및 / 또는 보이지 않는 단어를 처리 할 수 있어야합니까? 드문 용어 및 보이지 않는 범주에 대한 요구 사항은 시스템 설계에 도움이됩니다.
—
NBartley
감사합니다 @NBartley. 보이지 않는 단어도 가능성이 높습니다. 입력 된 매개 변수는 사용자가 생성 한 컨텐츠이므로, 보이지 않는 새로운 단어의 가능성은 매우 높습니다. 카테고리가 정의되지만 시간이 지남에 따라 카테고리 목록을 확장해야합니다. 감사합니다
—
Shankar
sense2vec too arxiv.org/abs/1511.06388을 확인해야합니다 . 간단히 말해서 품사 태그와 결합 된 단어 임베딩입니다. 그것은 동음 이의어를 명확하게함으로써 단어 임베딩을보다 정확하게 만들었다 고보고되었다. 분류 작업에서 성능을 향상시키는 지 확인하는 것이 흥미로울 것입니다.
—
wacax