나는 문서 간의 유사성을 찾기 위해 잠재 의미 색인을 사용하고 있습니다 ( 감사, JMS를! )
차원 축소 후에 문서를 클러스터로 그룹화하기 위해 k- 평균 군집화를 시도했지만 매우 효과적입니다. 그러나 조금 더 나아가서 두 노드 사이의 거리가 유사성에 반비례하는 노드 세트로 문서를 시각화하고 싶습니다 (매우 유사한 노드는 서로 가깝습니다).
내 데이터가 2 차원보다 크기 때문에 2 차원 그래프와의 유사성 행렬을 정확하게 줄일 수 없다는 사실에 놀랐습니다. 그래서 첫 번째 질문 :이 작업을 수행하는 표준 방법이 있습니까?
데이터를 2 차원으로 축소 한 다음 X 및 Y 축으로 플로팅하면 ~ 100-200 개의 문서 그룹에 충분합니까? 이것이 해결책이라면 데이터를 처음부터 2 차원으로 줄이는 것이 더 좋습니까? 아니면 다차원 데이터에서 두 개의 "최상의"차원을 선택할 수있는 방법이 있습니까?
차이가 나는 경우 파이썬과 gensim 라이브러리를 사용하고 있습니다.