Latent Dirichlet Allocation vs Hierarchical Dirichlet Process


49

Latent Dirichlet Allocation (LDA)Hierarchical Dirichlet Process (HDP) 는 모두 주제 모델링 프로세스입니다. 가장 큰 차이점은 LDA는 주제 수를 지정해야하며 HDP는 그렇지 않다는 것입니다. 왜 이렇게이다? 그리고 두 주제 모델링 방법의 차이점, 장단점은 무엇입니까?


HDP는 선정 할 주제의 수와 관련하여 데이터 중심적이어야합니까? 실제로 Blei의 HDP 구현을 실행하려고 시도했으며 프로세스를 종료 할 때까지 모든 메모리를 먹었습니다. 16GB RAM과 분석 할 100K 이상의 짧은 문서가 있습니다.
Vladislavs Dovgalecs

답변:


35

HDP는 LDA의 확장으로, 혼합 성분의 수 (문서 모델링 용어에서 "주제"의 수)가 선험적으로 알려지지 않은 경우를 해결하도록 설계되었습니다. 이것이 차이점이있는 이유입니다.

문서 모델링에 LDA를 사용하면, 각 "주제"를 알려진 어휘에서 단어의 분포로 취급합니다. 각 문서에 대해 Dirichlet 배포에서 주제의 혼합이 그려지고, 문서의 각 단어는 해당 혼합과 독립적으로 연결됩니다 (즉, 주제를 선택한 다음이를 사용하여 단어 생성).

HDP (문서 모델링에 적용)의 경우 Dirichlet 프로세스를 사용하여 주제 수의 불확실성을 캡처합니다. 따라서 코퍼스에 대해 가능한 무한한 가능한 토픽 세트를 나타내는 공통 기본 분포가 선택된 다음 각 문서에 대한 유한 토픽 분포가이 기본 분포에서 샘플링됩니다.

장단점에 이르기까지, HDP는 사전에 지정되지 않고 최대 개수의 주제를 데이터에서 제한없이 배울 수 있다는 이점이 있습니다. 나는 구현하기가 더 복잡하지만 제한된 수의 주제가 허용되는 경우 불필요하다고 생각합니다.


22

일화 적으로, 나는 계층 적 LDA의 결과에 깊은 인상을받은 적이 없다. 주제 수를 선택하기위한 최적의 세부 수준을 찾지 못하는 것 같습니다. 정기적 인 LDA를 몇 차례 반복 실행하고, 생성 한 주제를 수동으로 검사하고, 주제 수를 늘리거나 줄 일지 여부를 결정하고, 원하는 세분성을 얻을 때까지 계속 반복하여 훨씬 더 나은 결과를 얻었습니다.

기억하십시오 : 계층 적 LDA는 당신의 마음을 읽을 수 없습니다 ... 그것은 당신이 실제로 주제 모델링을 사용하려는 것을 알지 못합니다. k- 평균 군집화와 마찬가지로 사용 사례에 가장 적합한 k를 선택해야합니다.


16

이 주제에 대해 Google이 가장 많이 히트 한 것 중 하나 인 Latent Dirichlet Allocation (LDA), Hierarchical Dirichlet Processes (HDP) Hierarchical Latent Dirichlet Allocation (hLDA)은 모두 고유 한 모델이라는 점을 지적하고 싶습니다.

LDA 모델은 사용자가 모델의 매개 변수로 선택한 고정 된 수의 주제의 디 리틀 렛 혼합으로 문서화됩니다. 이는 용어를 주제로, 문서를 주제로 편평하고 부드러운 확률 론적 클러스터링을 생성합니다.

HDP는 주제를 LDA와 같이 단어의 혼합으로 모델링하지만, 고정 된 수의 주제가 혼합 된 문서가 아니라 주제 수는 디 리틀 릿 프로세스에 의해 생성되므로 주제의 수는 임의 변수입니다. 이름의 "계층 적"부분은 토픽 자체가 아니라 생성 모델 (토픽의 수를 생성하는 디 리클 프로세스)에 추가되는 다른 레벨을 나타냅니다. 토픽은 여전히 ​​플랫 클러스터링입니다.

반면, hLDA는 LDA를 적용한 것으로, 디 리틀 릿 분포 에서 도출 된 새롭고 뚜렷한 레벨의 주제를 혼합하여 주제를 모델링합니다.프로세스가 아닙니다. 여전히 주제 수를 하이퍼 파라미터 (즉, 데이터와 무관)로 취급합니다. 차이점은 클러스터링이 이제 계층 적이라는 것입니다. 즉, 첫 번째 토픽 세트 자체의 클러스터링을 학습하여 토픽 (및 단어와 문서) 사이에보다 일반적인 추상 관계를 제공합니다. 데이터 과학을 클러스터링하는 대신 스택 교환을 수학, 과학, 프로그래밍, 히스토리 등으로 클러스터링하고 소프트웨어 엔지니어링과 같은 일부 개념을 공유하는 추상 통계 및 프로그래밍 주제로 교차 검증하는 것과 소프트웨어 엔지니어링과 같은 개념으로 생각하십시오. 교환은 컴퓨터 과학 교환과 함께보다 구체적인 수준으로 클러스터링되며 언급 된 모든 교환 간의 유사성은 클러스터의 상위 계층까지 표시되지 않습니다.


0

LDA에 비해 HDP가 잘 작동하는 상황이 있습니다. 다양한 클래스에 속하는 약 16000 개의 문서가 있습니다. 각 수업에 대해 얼마나 많은 주제를 모을 수 있는지 알지 못하므로 HDP는이 경우에 정말 도움이됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.