문서 수준 클러스터링을 수행하려고합니다. 용어 문서 주파수 행렬을 구성했으며 k- 평균을 사용하여 이러한 고차원 벡터를 군집화하려고합니다. 직접 클러스터링 대신, 먼저 LSA (Latent Semantic Analysis) 특이 벡터 분해를 적용하여 U, S, Vt 행렬을 구하고, scree plot을 사용하여 적절한 임계 값을 선택하고 축소 된 행렬에 클러스터링을 적용했습니다 (특히 Vt 그것은 나에게 좋은 결과를주는 것처럼 보였던 개념 문서 정보를 제공합니다.
일부 사람들은 SVD (단일 벡터 분해) 가 (코사인 유사성 측정 등을 사용하여 ) 군집화 한다고 말하고 SVD 의 출력에 k- 평균을 적용 할 수 있는지 확실하지 않았습니다. SVD는 차원 축소 기술이기 때문에 논리적으로 정확하다고 생각했습니다. 새 벡터를 많이 제공합니다. 반면 k- 평균은 군집 수를 입력으로 사용하여 이러한 벡터를 지정된 군집으로 나눕니다. 이 절차에 결함이 있거나 개선 할 수있는 방법이 있습니까? 어떤 제안?