LDA와 같은 인기있는 주제 모델은 일반적으로 같은 주제 (클러스터)로 함께 발생하는 단어를 묶습니다.
이러한 주제 모델과 PMI와 같은 다른 간단한 동시 발생 기반 클러스터링 방식의 주요 차이점은 무엇입니까? (PMI는 Pointwise Mutual Information의 약자이며 주어진 단어와 함께 발생하는 단어를 식별하는 데 사용됩니다.)
LDA와 같은 인기있는 주제 모델은 일반적으로 같은 주제 (클러스터)로 함께 발생하는 단어를 묶습니다.
이러한 주제 모델과 PMI와 같은 다른 간단한 동시 발생 기반 클러스터링 방식의 주요 차이점은 무엇입니까? (PMI는 Pointwise Mutual Information의 약자이며 주어진 단어와 함께 발생하는 단어를 식별하는 데 사용됩니다.)
답변:
최근에, 글로 된 텍스트에서 정보를 추출하는 방법을 논의하는 거대한 문헌이 늘어났습니다. 그러므로 나는 단지 4 개의 이정표 / 인기 모델과 그들의 장점 / 단점을 설명하고 주요 차이점 (또는 적어도 내가 주요 / 가장 중요한 차이점이라고 생각하는 것)을 강조 할 것이다.
"가장 쉬운"접근 방식을 언급하는데, 이는 사전 정의 된 용어 쿼리 (PMI에서와 같이)와 문서를 일치시켜 문서를 클러스터링하는 것입니다. 그러나 이러한 어휘 일치 방법은 단일 용어에 대한 다의적 의미 (다중 의미)와 동의어 (유사한 의미를 갖는 여러 단어)로 인해 정확하지 않을 수 있습니다.
해결책으로서, 잠재 시맨틱 인덱싱 ( LSI )은 단일 값 분해를 통해 용어 및 문서를 잠재 시맨틱 공간에 매핑함으로써이를 극복하려고 시도한다. LSI 결과는 개별 용어보다 더 강력한 의미 지표입니다. 그러나 LSI의 한 가지 단점은 확고한 확률 론적 기반이 부족하다는 것입니다.
이것은 확률 적 LSI ( pLSI ) 의 발명에 의해 부분적으로 해결되었다 . pLSI 모델에서 문서의 각 단어는 다항식 랜덤 변수를 통해 지정된 혼합 모델에서 가져옵니다 (또한 @sviatoslav hong에서 언급 한 것처럼 상위 동시 발생을 허용 함). 이것은 확률 론적 텍스트 모델링에서 중요한 진전 이었지만, 문서 수준에서 확률 론적 구조를 제공하지 않는다는 점에서 불완전했습니다.
LDA (Latent Dirichlet Allocation )는이를 완화하고 텍스트 클러스터링을위한 최초의 완전 확률 모델입니다. Blei et al. (2003)은 pLSI가 이전에 균일 한 Dirichlet 하에서 최대 a-posteriori 추정 LDA 모델임을 보여줍니다.
위에서 언급 한 모델 (LSI, pLSI, LDA)은 공통적으로 "단어 모음"가정을 기반으로합니다. 즉, 문서 내에서 단어를 교환 할 수 있습니다. 즉, 문서의 단어 순서가 소홀히한다. 이러한 교환 가능성 가정은 다른 접근법들에 비해 LDA에 대한 추가적인 정당성을 제공한다. 문서 내의 단어들뿐만 아니라 문서들도 교환 할 수 있다고 가정 할 때, 즉 문서 내의 문서 순서를 무시할 수 있다고 가정하면 De Finetti의 정리교환 가능한 랜덤 변수 세트는 혼합 분포로 표시됩니다. 따라서 문서와 문서 내의 단어를 교환 할 수 있다고 가정하면 둘 다에 대한 혼합 모델이 필요합니다. 정확히 이것은 LDA가 일반적으로 달성하는 것이지만 PMI 또는 LSI는 그렇지 않습니다 (그리고 심지어 LDA만큼 아름답 지 않은 pLSI).
LDA는 용어 간 PMI를 계산하는 것만으로는 불가능한 (각 주제가 용어에 대한 다항식 분포라는 가정으로 인해) 용어의 상위 동시 발생을 캡처 할 수 있습니다.