프로젝트에 Latent Dirichlet Allocation을 사용하고 gensim 라이브러리와 함께 Python을 사용하고 있습니다. 주제를 찾은 후 k-means와 같은 알고리즘을 사용하여 문서를 클러스터링하고 싶습니다 (이상적으로는 클러스터를 겹치기에 좋은 것을 사용하여 권장 사항을 환영합니다). 주제를 얻었지만 다음과 같은 형식입니다.
0.041 * Minister + 0.041 * Key + 0.041 * moments + 0.041 * 논란 + 0.041 * 프라임
클러스터링 알고리즘을 적용하고 틀린 경우 수정하려면 tfidf 또는 word2vec를 사용하여 각 단어를 숫자로 나타내는 방법을 찾아야한다고 생각합니다.
예를 들어 목록에서 텍스트 정보를 "스트리핑"하여 적절한 곱셈을하기 위해 다시 배치하는 방법에 대한 아이디어가 있습니까?
예를 들어, 장관이라는 단어의 tfidf 가중치가 0.042 인 경우 같은 주제 내에있는 다른 단어의 경우 다음과 같이 계산해야합니다.
0.041 * 0.42 + ... + 0.041 * tfidf (Prime) 및 결과를 군집화하기 위해 나중에 사용될 결과를 얻습니다.
시간 내 주셔서 감사합니다.