LSA 및 PCA (문서 클러스터링)

문서 클러스터링에 사용되는 다양한 기술을 조사하고 있으며 PCA (주요 구성 요소 분석) 및 LSA (잠재적 의미 분석)와 관련된 몇 가지 의문을 해결하고 싶습니다.

첫 번째-차이점은 무엇입니까? PCA에서 SVD 분해는 항 공분산 행렬에 적용되는 반면 LSA에서는 항 문서 행렬입니다. 다른 것이 있습니까?

둘째-문서 클러스터링 절차에서 그들의 역할은 무엇입니까? 지금까지 읽은 내용을 통해 그 목적은 차원의 축소, 소음 감소 및 용어 간의 관계를 표현에 통합하는 것으로 추론합니다. PCA 또는 LSA를 실행 한 후 k- 평균 또는 응집 방법과 같은 기존 알고리즘이 축소 된 공간에 적용되고 코사인 거리와 같은 일반적인 유사성 측정이 사용됩니다. 내가 틀렸다면 정정 해주세요.

셋째-PCA / LSA를 적용하기 전에 TF / IDF 항 벡터가 정규화되는지 여부는 중요합니까? 그런 다음 다시 정규화해야합니까?

넷째-LSA / PCA에 의해 줄어든 공간이라는 용어에 대해 클러스터링을 수행했다고 가정 해 봅시다. 이제 결과 클러스터에 레이블을 어떻게 지정해야합니까? 치수는 실제 단어와 일치하지 않으므로 다소 어려운 문제입니다. 내 생각에 유일하게 생각되는 것은 원래 용어 벡터를 사용하여 각 클러스터에 대한 중심을 계산하고 가중치가 가장 큰 용어를 선택하는 것입니다. 이 문제에 대한 특정 해결책이 있습니까? 나는 아무것도 찾을 수 없었다.

이 문제를 명확하게 설명해 주셔서 감사합니다.

— 사용자 1315305
소스

LSA 또는 LSI : 동일하거나 다른가? LSI = 잠재 의미 체계 인덱싱을 의미하는 경우 수정하고 표준화하십시오.

— 닉 콕스

LSI와 LSA는 서로 다른 것입니까? 나는 그들이 동등하다고 생각했다.

— user1315305

나는 모른다. 요점은 하나의 용어를 두 가지가 아닌 하나만 사용하는 것입니다. 그렇지 않으면 귀하의 질문을 이해하기가 훨씬 어렵습니다.

— 닉 콕스

좋아, 나는 그것을 수정했다. 지적 해 주셔서 감사합니다 :)

— user1315305

Wikipedia 는 LSA = LSI라는 인상을줍니다. 그러나 LSI는 대응 분석 (CA)입니다. CA는 PCA와 같은 통계 분석 용어이며 LSI / LSA는 텍스트 마이닝 용어입니다. 따라서 PCA와 CA를 비교하는 기사를 검색하십시오.

— ttnphns

답변:

PCA와 LSA는 SVD를 사용하는 분석입니다. PCA는 일반적인 분석 클래스이며 원칙적으로 다양한 방법으로 열거 된 텍스트 코 도라에 적용될 수 있습니다. 반대로 LSA는 텍스트를 분석하고 줄이는 매우 명확하게 지정된 수단입니다. 둘 다 맥락에서 의미를 추출 할 수 있다는 생각을 활용하고 있습니다. LSA에서 문맥은 용어 문서 매트릭스를 통해 숫자로 제공됩니다. PCA에서는 공분산 매트릭스라는 용어를 제공하여 숫자로 제공되는 컨텍스트를 제안합니다 (생성에 대한 세부 사항은 PCA와 LSA 사이의 관계에 대해 더 많이 알려줄 수 있습니다). 자세한 내용 은 여기 를 참조하십시오.
당신은 기본적으로 여기에 있습니다. 이들이 사용되는 정확한 이유는 상황과 데이터를 가지고 노는 사람의 목표에 달려 있습니다.
대답은 아마도 사용중인 프로 시저의 구현에 따라 다를 것입니다.
신중하고 훌륭한 예술로. 대부분 이러한 의미 론적 모델의 차원을 해석 할 수없는 것으로 간주하십시오. 거의 확실하게 하나 이상의 기본 차원이있을 것으로 예상합니다. 요인 분석에 차원이 두 개 이상 있으면 요인 솔루션을 회전시켜 해석 가능한 요인을 산출합니다. 그러나 어떤 이유로 든 이러한 모델은 일반적으로 수행되지 않습니다. 당신의 접근 방식은 예술을 시작하는 원칙적인 방법처럼 들리지만 치수 사이의 스케일링은 클러스터 분석 솔루션을 신뢰하기에 충분히 유사합니다. 의미를 가지고 놀고 싶다면 벡터가 특정 단어 (예 : HAL) 와 직접적인 관계가있는 더 간단한 접근법을 고려할 수도 있습니다 .

— 러셀 피어스
소스

LSI는 용어 문서 행렬에서 계산되는 반면 PCA는 공분산 행렬에서 계산됩니다. 즉, LSI는 데이터 세트를 설명하기 위해 최상의 선형 부분 공간을 찾으려고 시도하고 PCA는 최상의 병렬 선형 부분 공간을 찾으려고합니다.

— 가우 라브 싱
소스

Nick, 최고의 선형 부분 공간과 최고의 병렬 선형 부분 공간의 차이점에 대한 자세한 정보를 제공 할 수 있습니까? 이것은 직교성과 관련이 있습니까? 이것들을 새로운 질문으로해야합니까?

— russellpierce

어떤 의미에서 최고입니까? 재구성 오류의 Frobinius 규범을 최소화 하시겠습니까? 이 경우 PCA처럼 들립니다.

— Andrew M

russellpierce의 답변에 대한 확장.

1) 본질적으로 LSA는 텍스트 데이터에 적용되는 PCA입니다. PCA에 SVD를 사용하는 경우 공분산 행렬에 적용되지 않고 피쳐 샘플 매트릭스에 직접 적용됩니다. 이는 LSA의 용어 문서 매트릭스에 불과합니다. 차이점은 PCA는 종종 데이터에 대해 기능별 정규화를 요구하지만 LSA는 그렇지 않습니다.

Andrew Ng 가 PCA와 LSA 간의 연결을 설명 하는 멋진 강의가 있습니다.

2/3) 문서 데이터는 길이가 다양하므로 일반적으로 크기를 정규화하는 것이 좋습니다. 여기서는 기능별 정규화가 아니라 샘플 별 정규화를 사용해야합니다. 실제로 LSI 전후에 정규화하는 것이 도움이된다는 것을 알았습니다.

클러스터링 알고리즘 메트릭이 크기 (코사인 거리)에 의존하지 않는 경우 마지막 정규화 단계를 생략 할 수 있습니다.

4) 클러스터에서 의미있는 레이블을 얻는 것은 일반적으로 어려운 문제라고 생각합니다. 어떤 사람들은 코퍼스와 군집 사이의 분포 차이를 최대화하는 용어 / 구를 추출합니다. 다른 방법은 사전 정의 된 레이블이있는 반 감독 클러스터링을 사용하는 것입니다.

— 돈루
소스