LSA와 pLSA의 파렐


9

pLSA 의 원본 논문 에서 저자 인 Thomas Hoffman은 제가 논의하고자하는 pLSA와 LSA 데이터 구조 사이에 유사점을 두었습니다.

배경:

정보 검색에서 영감을 얻은 것은 N 서류

D={d1,d2,....,dN}
그리고 어휘 M 자귀
Ω={ω1,ω2,...,ωM}

코퍼스 X 로 나타낼 수 있습니다 N×M 동시 행동 행렬.

에서 잠재 의미 Analisys 의해 SVD 행렬X 세 가지 행렬로 분해됩니다.

X=UΣVT
어디 Σ=diag{σ1,...,σs} 그리고 σi 특이 값입니다 Xs ~의 계급 X.

LSA 근사치 X

X^=U^Σ^VT^
그런 다음 세 행렬을 어떤 수준으로 자르는 것으로 계산됩니다. k<s그림과 같이

여기에 이미지 설명을 입력하십시오

pLSA에서 고정 주제 세트 (잠재적 변수) Z={z1,z2,...,zZ} 근사치 X 다음과 같이 계산됩니다.

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T
여기서 3 개의 행렬은 모형의 가능성을 최대화하는 행렬입니다.

실제 질문 :

저자는 이러한 관계가 다음과 같다고 말합니다.

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

LSA와 pLSA의 중요한 차이점은 최적 분해 / 근사를 결정하는 데 사용되는 목적 함수입니다.

나는 그가 두 매트릭스를 생각하기 때문에 그가 옳은지 모르겠다 X^ 다른 개념을 재현 : LSA에서는 용어가 문서에 나타나는 시간의 근사치이며 pLSA에서는 용어가 문서에 나타날 확률 (추정치)입니다.

이 점을 분명히 해 줄 수 있습니까?

또한, 새로운 문서가 주어지면 코퍼스에서 두 모델을 계산했다고 가정합니다. dLSA에서는 다음과 같이 근사값을 계산하는 데 사용합니다.

d^=d×V×VT
  1. 항상 유효합니까?
  2. pLSA에 동일한 절차를 적용하여 의미있는 결과를 얻지 못하는 이유는 무엇입니까?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

감사합니다.

답변:


12

간단히하기 위해 LSA와 NMF (Non-Negative Matrix Factorization)를 연결 한 다음 비용 함수를 간단히 수정하여 pLSA를 만드는 방법을 보여 드리겠습니다. 앞에서 언급했듯이 LSA와 pLSA는 모두 행과 열의 정규화까지 문서 용어 행렬의 낮은 순위 분해를 의미하는 인수 분해 방법입니다.

X=UΣD

이전 표기법 사용. 더 간단히 말하면, 문서 용어 행렬은 두 행렬의 곱으로 쓰여질 수 있습니다.

X=ABT

어디 AN×sBM×s. LSA의 경우 이전 공식과의 일치는 설정을 통해 얻습니다. A=UΣB=VΣ.

LSA와 NMF의 차이점을 이해하는 쉬운 방법은 다음과 같은 기하학적 해석을 사용하는 것입니다.

  • LSA는 다음의 솔루션입니다.

    minA,BXABTF2,
  • NMF- 는 다음의 해입니다. L2

    minA0,B0XABTF2,
  • NMF-KL은 pLSA와 동일하며 의 솔루션입니다

    minA0,B0KL(X||ABT).

여기서 는 행렬 와 사이 의 쿨백-레 블러 발산 입니다. 에 양수를 곱하고 나눌 수 있기 때문에 위의 모든 문제에 고유 한 해결책이 없음을 쉽게 알 수 있습니다.KL(X||Y)=ijxijlogxijyijXYAB같은 목표 값을 얻기 위해 같은 숫자로. 따라서 LSA의 경우 사람들은 일반적으로 고유 값을 낮추어 정렬 된 직교 기준을 선택합니다. 이는 SVD 분해에 의해 제공되며 LSA 솔루션을 식별하지만 대부분의 작업 (코사인 유사성, 위에서 언급 한 스무딩 수식 등)에 영향을 미치지 않으므로 다른 선택이 가능합니다. -NMF의 경우 직교 분해가 불가능하지만 의 행 은 일반적으로 와 같은 직접적인 확률 해석을 ​​갖기 때문에 1의 합으로 제한됩니다 . 또한 의 행 이 정규화 되면 (즉, 1로 합산) 의 행이 1로 합산되어 확률 론적 해석으로 이어집니다.Ap(zk|di)XBp(fj|zk) . 의 열이 로 합산되어 의 값 이 이기 때문에 위의 질문에서 주어진 pLSA의 버전과 약간의 차이가 있습니다.AAp(di|zk) 의 차이가 있지만, 그 차이는 단지 매개 변수의 변화 일뿐입니다. 문제는 동일하게 유지되었습니다.

이제 초기 질문에 대답하기 위해 LSA와 pLSA (및 기타 NMF 알고리즘)의 차이에 미묘한 점이 있습니다. 비음 수 제약은 단일 값 때문에 고전 LSA 사례에서 유효하지 않은 "클러스터링 효과"를 유발합니다. 분해 솔루션은 회전 불변입니다. 음이 아닌 구속 조건은 어떻게 든이 회전 불변을 깨뜨리고 어떤 의미 적 의미 (텍스트 분석의 주제)를 가진 요소를 제공합니다. 그것을 설명하는 첫 번째 논문은 다음과 같습니다.

Donoho, David L. 및 Victoria C. Stodden. "음이 아닌 행렬 인수 분해는 언제 부품으로 정확한 분해를 제공합니까?" 신경 정보 처리 시스템의 발전 16 : 2003 회의 진행. MIT Press, 2004. [링크]

그렇지 않으면 PLSA와 NMF의 관계는 다음과 같습니다.

딩, 크리스, 타오 리, 웨이 펑 "음이 아닌 행렬 인수 분해와 확률 적 잠재 의미론 색인화의 동등성에." 계산 통계 및 데이터 분석 52.8 (2008) : 3913-3927. [링크]

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.