짧은 문서를위한 주제 모델

14

이 질문 에서 영감을 받아 , 매우 짧은 텍스트의 큰 컬렉션을 위해 주제 모델에 대한 작업이 수행되었는지 궁금합니다. 내 직감은 트위터가 그러한 모델에 대한 자연스러운 영감이어야한다는 것입니다. 그러나 일부 제한된 실험에서 표준 토픽 모델 (LDA 등)이 이런 종류의 데이터에서 성능이 좋지 않은 것으로 보입니다.

이 분야에서 수행 된 작업에 대해 아는 사람이 있습니까? 이 백서에서는 LDA를 Twitter에 적용하는 방법에 대해 설명하지만 짧은 문서 컨텍스트에서 더 나은 성능을 발휘하는 다른 알고리즘이 있는지에 관심이 있습니다.

— 마틴 오 러리
소스

2

트위터는 크기가 작은 '문서'뿐만 아니라 텍스트 유형으로 인해 주제 모델링에 특히 어려운 데이터 세트입니다. 사람들은 다양한 문자 속기를 사용하는 경향이 있으며, 이로 인해 동시 발생을 식별하기가 더욱 어려워집니다.

— Nick

에 트윗에 좋은 논문의 목록과 주제 모델링에 해당하는 소스 코드를 참조하십시오 quora.com/...

— NQD

7

이 답변은 늦었지만이 문제에 대한 관련 연구 및 도구를 검색하는 다른 사람들에게 유용 할 수 있습니다.

컬럼비아 출신의 Weiwei Guo는 짧은 텍스트 토픽 모델링을위한 코드를 구현했습니다. 그는 "잠재적 공간에서의 모델링 문장"( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) 논문에서 구현을 설명했으며 코드는 여기에서 사용할 수 있습니다 : http : // www .cs.columbia.edu / ~ weiwei / code.html
이것은 주제 모델링이 아니지만 짧은 텍스트 조각과 관련된 분류 작업이있는 경우 LibShortText를 사용할 수 있습니다. 그들의 웹 사이트 설명에서

"LibShortText는 짧은 텍스트 분류 및 분석을위한 오픈 소스 도구입니다. 제목, 질문, 문장 및 짧은 메시지 등의 분류를 처리 할 수 있습니다 ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— DPS
소스

6

나는 그의 작업에 익숙하지 않지만 Jacob Eisenstein 은 트위터 데이터에서 텍스트 분석 및 그래픽 모델 작업을 수행 한 것을 알고 있습니다. 특히, 본 논문 은 트위터 데이터 및 마이크로 블로그에서의 토픽 모델링 적용에 대해 설명한다.

편집 : 실제로 신문을 조금 더 읽은 후에는 다음과 같이 말합니다.

그러나 트위터의 평균 메시지는 16 개의 단어 토큰으로, 전통적인 주제 모델링에는 너무 드물다. 대신, 우리는 주어진 사용자의 모든 메시지를 하나의 문서로 모았습니다.

따라서 종이가 많은 도움이되지 않을 수도 있지만, 다른 아이젠 슈타인 출판물이 올바른 방향으로 이끌 수도 있습니다.

— 주니에
소스

6

" 짧은 텍스트에 대한 이중 주제 모델 "(WWW13) 이라는 최근 논문 이이 주제에 대해 진전을 이루 었으며 코드 는 다음과 같습니다.

— 샤 오후이 얀
소스

2

BiTerm LDA가 짧은 텍스트 발화 (3-8 단어) 주제 모델링 및 후속 분류에 매우 효과적임을 확인합니다.

— Vladislavs Dovgalecs