질문:
PCA와 LSA / LSI의 적용 여부를 결정하는 데 사용할 수있는 입력 데이터 특성에 대한 일반적인 지침이 있습니까?
PCA와 LSA / LSI에 대한 간략한 요약 :
PCA (Principle Component Analysis)와 LSA (Latent Semantic Analysis) 또는 LSI (Latent Semantic Indexing)는 모두 SVD (Singular Value Decomposition)를 행렬에 적용하는 데 기본적으로 의존한다는 점에서 유사합니다.
내가 알 수있는 한, LSA와 LSI는 같은 것입니다. LSA는 기본적으로는 아니지만 PCA와 다르지만 SVD를 적용하기 전에 매트릭스 항목이 사전 처리되는 방식 측면에서 다릅니다.
LSA에서 전처리 단계는 일반적으로 열이 '문서'에 해당하고 행이 어떤 종류의 단어에 해당하는 카운트 매트릭스를 정규화합니다. 항목은 일종의 (정규화 된) 단어 발생률 문서로 간주 될 수 있습니다.
PCA에서 전처리 단계는 원래 행렬로부터 공분산 행렬을 계산하는 단계를 포함합니다. 원래 매트릭스는 LSA의 경우보다 개념 상 본질적으로 더 '일반적'입니다. PCA와 관련하여 열은 일반적으로 일반 샘플 벡터를 나타내고 행은 측정중인 개별 변수를 나타냅니다. 공분산 행렬은 정의에 의해 정사각형 및 대칭이며 실제로 공분산 행렬은 대각선을 통해 분해 될 수 있기 때문에 SVD를 적용 할 필요가 없습니다. 특히 PCA 매트릭스는 LSA / LSI 변형보다 밀도가 높을 것입니다. 변수 사이의 공분산이 0 인 경우에만, 즉 변수가 독립적 인 경우에만 제로 항목이 발생합니다.
마지막으로 두 가지를 구별하기 위해 상당히 자주 설명되는 한 가지 더 중요한 요점은
LSA는 프로 베니 우스 표준에서 최고의 선형 부분 공간을 찾고 PCA는 최고의 아핀 선형 부분 공간을 목표로합니다.
어쨌든 이러한 기술의 차이점과 유사점은 인터넷을 통한 다양한 포럼에서 뜨거운 논쟁을 불러 일으켰으며, 현저한 차이점이 있으며 분명히이 두 기술은 다른 결과를 낳을 것입니다.
따라서 나는 다시 질문을 반복한다 : 입력 데이터 특성과 관련하여 PCA와 LSA / LSI의 적용을 결정하는 데 사용할 수있는 일반적인 지침이 있는가? 용어 문서 매트릭스와 유사한 것이 있다면 LSA / LSI가 항상 최선의 선택일까요? 경우에 따라 LSA / LSI에 대한 용어 / 문서 매트릭스를 준비한 다음 SVD를 직접 적용하는 대신 PCA를 적용하여 더 나은 결과를 얻을 수 있습니까?