주제 모델 및 단어 동시 발생 방법


26

LDA와 같은 인기있는 주제 모델은 일반적으로 같은 주제 (클러스터)로 함께 발생하는 단어를 묶습니다.

이러한 주제 모델과 PMI와 같은 다른 간단한 동시 발생 기반 클러스터링 방식의 주요 차이점은 무엇입니까? (PMI는 Pointwise Mutual Information의 약자이며 주어진 단어와 함께 발생하는 단어를 식별하는 데 사용됩니다.)

답변:


32

최근에, 글로 된 텍스트에서 정보를 추출하는 방법을 논의하는 거대한 문헌이 늘어났습니다. 그러므로 나는 단지 4 개의 이정표 / 인기 모델과 그들의 장점 / 단점을 설명하고 주요 차이점 (또는 적어도 내가 주요 / 가장 중요한 차이점이라고 생각하는 것)을 강조 할 것이다.

"가장 쉬운"접근 방식을 언급하는데, 이는 사전 정의 된 용어 쿼리 (PMI에서와 같이)와 문서를 일치시켜 문서를 클러스터링하는 것입니다. 그러나 이러한 어휘 일치 방법은 단일 용어에 대한 다의적 의미 (다중 의미)와 동의어 (유사한 의미를 갖는 여러 단어)로 인해 정확하지 않을 수 있습니다.

해결책으로서, 잠재 시맨틱 인덱싱 ( LSI )은 단일 값 분해를 통해 용어 및 문서를 잠재 시맨틱 공간에 매핑함으로써이를 극복하려고 시도한다. LSI 결과는 개별 용어보다 더 강력한 의미 지표입니다. 그러나 LSI의 한 가지 단점은 확고한 확률 론적 기반이 부족하다는 것입니다.

이것은 확률 적 LSI ( pLSI ) 의 발명에 의해 부분적으로 해결되었다 . pLSI 모델에서 문서의 각 단어는 다항식 랜덤 변수를 통해 지정된 혼합 모델에서 가져옵니다 (또한 @sviatoslav hong에서 언급 한 것처럼 상위 동시 발생을 허용 함). 이것은 확률 론적 텍스트 모델링에서 중요한 진전 이었지만, 문서 수준에서 확률 론적 구조를 제공하지 않는다는 점에서 불완전했습니다.

LDA (Latent Dirichlet Allocation )는이를 완화하고 텍스트 클러스터링을위한 최초의 완전 확률 모델입니다. Blei et al. (2003)은 pLSI가 이전에 균일 한 Dirichlet 하에서 최대 a-posteriori 추정 LDA 모델임을 보여줍니다.

위에서 언급 한 모델 (LSI, pLSI, LDA)은 공통적으로 "단어 모음"가정을 기반으로합니다. 즉, 문서 내에서 단어를 교환 할 수 있습니다. 즉, 문서의 단어 순서가 소홀히한다. 이러한 교환 가능성 가정은 다른 접근법들에 비해 LDA에 대한 추가적인 정당성을 제공한다. 문서 내의 단어들뿐만 아니라 문서들도 교환 할 수 있다고 가정 할 때, 즉 문서 내의 문서 순서를 무시할 수 있다고 가정하면 De Finetti의 정리교환 가능한 랜덤 변수 세트는 혼합 분포로 표시됩니다. 따라서 문서와 문서 내의 단어를 교환 할 수 있다고 가정하면 둘 다에 대한 혼합 모델이 필요합니다. 정확히 이것은 LDA가 일반적으로 달성하는 것이지만 PMI 또는 LSI는 그렇지 않습니다 (그리고 심지어 LDA만큼 아름답 지 않은 pLSI).


2
1/2 감사합니다! 매우 명확한. 이것이 올바른지 확인하겠습니다. LSI에서 문서는 단어 (주제 개념 없음)의 혼합으로 구성되며 SVD를 사용하여 단어와 문서가 낮은 차원 의미 공간에 매핑됩니다. 비슷한 의미 적 의미를 가진 단어가 더 가깝게 매핑되므로 동의어를 처리 할 수는 있지만 polisemy에는 문제가 있습니다. pLSI는 주제의 개념을 소개함으로써 polisemy 문제를 해결합니다. pLSI에서 단어는 다항식 단어 분포 (주제)에서 가져옵니다. 동일한 단어가 여러 주제에 속할 수 있으며 문서에는 여러 주제가 있지만 명시 적으로 모델링되지는 않습니다.
kanzen_master

2
나는 일반적으로 당신이 그것을 올바르게 생각합니다. 약간의 작은 수정 : LSI는 polysemy와 synomy 모두에서 잘 작동하는 것으로 간주됩니다. pLSI는 기본적으로 LSI가 선형 대수학이 아닌 잠재 클래스 분석 / 혼합 모델 및 확률 도구로 LSI가 노력하는 것을 달성하기위한 공식입니다. pLSI와 비교 한 LDA는 문서 별 주제 분포를 지정하여 완전히 생성 된 모델입니다.
Momo

1
과적 합 및 예측에 대한 귀하의 요점과 관련하여, 나는 자격을 갖춘 진술에 대해 충분히 지식이 없습니다. 그러나 LDA가 pLSI보다 과적 합이 덜 필요한 이유는 모르겠습니다 (LDA는 기본적으로 pLSI 모델 이전에 추가하기 때문입니다). 둘 다 과적 합 등에 대한 내장 보정이 없습니다. LDA와 같은 완전히 생성 된 모델을 사용하면 새 문서의 "예측"이 실제로 더 쉬울 수도 있고 실현 가능할 수도 있습니다. stats.stackexchange.com/questions/9315/…를 참조하십시오 . 그러나 LDA는 감독되지 않은 설명 모델로 간주됩니다.
Momo

1
다시 감사합니다! 단지 2 가지 최종 질문 : (1) 이 PDF에서, 3 페이지의 끝 부분 다형성에 대해, 호프만은 LSI와 비교 한 PLSI의 차이점 중 하나는 다의 적이라고 주장합니다. 왜냐하면 같은 단어가 다른 단어 분포 (주제)에 속할 수 있기 때문입니다. 그래서 나는 LSI가 polysemy와 함께 작동하지 않는다고 생각했습니다. (2) 과적 합과 관련하여이 블로그 는 매개 변수의 선형 증가는 모형이 과적 합되기 쉽다는 것을 나타냅니다. 어떻게 생각해 ?
kanzen_master

2
문제 없어. 당신은 이미 이것들에 대해 많이 알고 있으므로 나도 배우고 있습니다. ad (1) 음, 평소와 같이, LSI는 PCA에서와 같이 용어의 선형 조합으로 인해 polysemy를 처리 할 수 ​​있습니다. 동의어를 사용하면 더 잘 수행 할 수 있지만, 어느 정도는 polysemy에서도 가능합니다. 기본적으로 유사한 다항 어는 유사한 의미를 공유하는 단어의 추가 된 구성 요소입니다. 그러나 각 단어가 공간의 단일 지점으로 표시되므로 pLSI보다 훨씬 덜 효과적입니다. 그러므로 단어 표현은 말뭉치에서 단어의 다른 의미의 평균입니다.
Momo

5

LDA는 용어 간 PMI를 계산하는 것만으로는 불가능한 (각 주제가 용어에 대한 다항식 분포라는 가정으로 인해) 용어의 상위 동시 발생을 캡처 할 수 있습니다.


4
감사! "high-order of co-occurrences"의 정의는 무엇입니까?
kanzen_master

5

3 년이 늦었을 수도 있지만 "고차 동시 발생"의 예에 대한 귀하의 질문을 따르고 싶습니다.

기본적으로, 용어 t1이 용어 t3과 함께 발생하는 용어 t2와 함께 발생하면, 용어 t1은 용어 t3과의 2 차 동시 발생이다. 원하는 경우 더 높은 순서로 갈 수 있지만 결국에는 두 단어가 얼마나 유사한지를 제어합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.