잠재 시맨틱 분석 (LSA), 잠재 시맨틱 색인 (LSI) 및 특이 값 분해 (SVD)의 차이점은 무엇입니까?


15

이 용어는 많이 함께 사용되지만 차이가 있다고 생각되는 경우 알고 싶습니다.

감사

답변:


12

LSA와 LSI는 대부분 동의어로 사용되며 정보 검색 커뮤니티는 일반적으로 LSI라고합니다. LSA / LSI는 SVD를 사용하여 용어 문서 행렬 A를 용어 개념 행렬 U, 특이 값 행렬 S 및 개념 문서 행렬 V로 A = USV '형식으로 분해합니다. 위키 백과 페이지에는 잠재 의미 체계 색인에 대한 자세한 설명이 있습니다.


8

특히 LSA와 LSI가 SVD를 사용하여 마법을 수행하는 동안 HAL (Hyperspace Analogue to Language)이라는 계산적으로 개념적으로 간단한 방법이 있으며 텍스트를 통해 이전 및 이후 컨텍스트를 추적합니다. 이들 (종종 가중 된) 동시 발생 행렬로부터 벡터가 추출되고, 의미 공간을 인덱스하기 위해 특정 단어가 선택된다. 여러 가지면에서 SVD의 수학적 / 개념적으로 복잡한 단계를 요구하지 않고도 LSA뿐만 아니라 성능도 이해할 수 있습니다. 자세한 내용은 Lund & Burgess, 1996를 참조하십시오.


4
... Finch and Chater (1992, 1994), Schütze (1993) 등의 이전 작업을 요약합니다. HAL, LSA 및 다른 종래 기술은 문맥 상 유사성을 계산함으로써 단어에 대한 유사성 측정치를 생성함으로써 작동한다. (이는 셰퍼드의 '2 차'유사성입니다. '1 차'유사성은 단어 a가 단어 b 근처에서 발생할 때입니다. '2 차'유사성은 단어 a가 단어 b와 같은 종류의 단어 근처에서 발생한다는 것입니다.
conjugateprior

3
비교 및 대조 : LSA의 맥락은 완전한 문서입니다. HAL 및 기타의 경우 대상 단어를 둘러싼 텍스트 창입니다. LSA는 SVD / PCA를 통해 추출 된 선형 부분 공간에서 거리를 측정하고, 나머지는 주변 단어 수의 원래 공간에서 거리를 처리합니다.
conjugateprior

6

NMF와 SVD는 모두 행렬 분해 알고리즘입니다. Wikipedia에는 ​​NMF에 대한 관련 정보가 있습니다.

AA=AA

다른 응답자들은 LSI / LSA를 다루었습니다 ...


공분산 행렬이어야합니까? 상관 행렬이 아닙니다.
Rafael

예, 변수를 먼저 중심에 두지 않는 한
Emre

변수 정규화 후 상관 행렬이됩니까?
Rafael

정규화는 스케일링을 중심으로하기 때문에 다릅니다.
Emre
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.