문서 클러스터링에 사용되는 다양한 기술을 조사하고 있으며 PCA (주요 구성 요소 분석) 및 LSA (잠재적 의미 분석)와 관련된 몇 가지 의문을 해결하고 싶습니다.
첫 번째-차이점은 무엇입니까? PCA에서 SVD 분해는 항 공분산 행렬에 적용되는 반면 LSA에서는 항 문서 행렬입니다. 다른 것이 있습니까?
둘째-문서 클러스터링 절차에서 그들의 역할은 무엇입니까? 지금까지 읽은 내용을 통해 그 목적은 차원의 축소, 소음 감소 및 용어 간의 관계를 표현에 통합하는 것으로 추론합니다. PCA 또는 LSA를 실행 한 후 k- 평균 또는 응집 방법과 같은 기존 알고리즘이 축소 된 공간에 적용되고 코사인 거리와 같은 일반적인 유사성 측정이 사용됩니다. 내가 틀렸다면 정정 해주세요.
셋째-PCA / LSA를 적용하기 전에 TF / IDF 항 벡터가 정규화되는지 여부는 중요합니까? 그런 다음 다시 정규화해야합니까?
넷째-LSA / PCA에 의해 줄어든 공간이라는 용어에 대해 클러스터링을 수행했다고 가정 해 봅시다. 이제 결과 클러스터에 레이블을 어떻게 지정해야합니까? 치수는 실제 단어와 일치하지 않으므로 다소 어려운 문제입니다. 내 생각에 유일하게 생각되는 것은 원래 용어 벡터를 사용하여 각 클러스터에 대한 중심을 계산하고 가중치가 가장 큰 용어를 선택하는 것입니다. 이 문제에 대한 특정 해결책이 있습니까? 나는 아무것도 찾을 수 없었다.
이 문제를 명확하게 설명해 주셔서 감사합니다.