Latent Dirichlet Allocation으로 홀드 아웃의 당혹 성을 계산하는 방법은 무엇입니까?


18

Latent Dirichlet Allocation (LDA)을 수행 할 때 홀드 아웃 샘플의 난이도를 계산하는 방법에 대해 혼란스러워합니다. 주제에 관한 논문이 그 위에 산들 바람을 느꼈다.

당황은 LDA의 성능을 측정하는 좋은 척도로 보입니다. 아이디어는 홀드 아웃 샘플을 유지하고 나머지 데이터에 대해 LDA를 학습 한 다음 홀드 아웃의 난이도를 계산하는 것입니다.

당황은 다음 공식으로 나타낼 수 있습니다.

per(Dtest)=exp{d=1Mlogp(wd)d=1MNd}

( Hoster 등의 대규모 이미지 데이터베이스 에서 이미지 검색을 통해 얻은 것 입니다.)

여기서 (시험 샘플에서, 아마도) 문서의 수이고, 문서의 단어를 나타내는 , 문서 내의 단어의 수 .w d d N d dMwddNdd

을 현명하게 계산하는 방법은 명확 하지 않습니다. 공개 문서에 대한 주제 혼합이 없기 때문입니다. 이상적으로는 가능한 모든 주제 혼합에 대해 먼저 Dirichlet을 통합하고 학습 한 주제 다항식을 사용합니다. 그러나이 적분을 계산하는 것은 쉬운 일이 아닙니다.p(wd)

또는, 우리는 배운 주제마다 주어진 각 문서에 대해 최적의 주제 혼합을 배우려고 시도하고 이것을 사용하여 당황을 계산할 수 있습니다. 이것은 가능하지만 Horter 등 및 Blei 등의 논문이 제안한 것처럼 사소한 것은 아니며 결과가 위의 이상적인 경우와 동일하다는 것이 즉시 명확하지 않습니다.

답변:


17

이것은 실제로 종종 광택이 나는 것입니다.

일부 사람들은 약간 건방진 일을하고 있습니다. 각 문서에서 단어의 비율을 유지하고 문서-주제 혼합과 주제-단어 혼합을 고려할 때 이러한 보류 단어의 예측 확률을 사용합니다. 보류 된 문서의 성능을 평가하지 않으므로 이는 이상적이지 않습니다.

제안 된 바와 같이 보류 된 문서를 올바르게 사용하려면 "가능한 모든 주제 혼합물에 대해 사전에 Dirichlet을 통합해야합니다". http://people.cs.umass.edu/~wallach/talks/evaluation.pdf 는 약간 불쾌한 적분을 해결하기위한 몇 가지 방법을 검토합니다. 나는 실제로 이것을 직접 시도하고 구현하려고합니다. 행운을 빕니다!


3
이 질문을 준 것에 대해 감사합니다! Wallach 등은 또한 주제 모델 평가에 관한 논문을 가지고있다 : 주제 모델을위한 평가 방법
drevicko 8:22에서

1
걱정 마. MALLET 주제 모델링 도구 상자에 Wallach의 왼쪽에서 오른쪽으로의 메소드에 대한 코드가 있음을 발견했습니다 .LDA 구현을 사용하는 것이 행복하다면 세트에서 실행하기가 쉽지는 않지만 쉬운 승리입니다. LDA의 다른 변형에서 다른 곳에서 배운 주제 중 하나입니다. 필자는 가이드에서 제공하는 matlab 코드를 사용하여 종이에서 Chib 스타일 추정기를 구현했지만 결국 몇 가지 문제를 해결해야했지만 코드를 원하는지 알려주십시오.
Matt

안녕하세요 @Matt LDA의 난이도 평가를 위해 matlab 코드를 전달할 수 있습니까? 감사합니다
페르시아의 공주

@princessofpersia 필자가 matlab 코드로 언급 한 문제를 해결했다고 생각합니다. 여기 참조 : homepages.inf.ed.ac.uk/imurray2/pub/09etm
Matt

0

LDA의 매개 변수는 Variational Inference를 통해 추정된다는 것을 알고 있습니다. 그래서

logp(w|α,β)=E[logp(θ,z,w|α,β)]E[logq(θ,z)]+D(q(θ,z)||p(θ,z)) .

변동 분포가 원래 분포와 충분히 같으면 입니다. 따라서 입니다. 가능성입니다.log p ( w | α , β ) = E [ log p ( θ , z , w | α , β ) ] - E [ log q ( θ , z ) ]D(q(θ,z)||p(θ,z))=0logp(w|α,β)=E[logp(θ,z,w|α,β)]E[logq(θ,z)]

logp(w|α,β) 는 변형 추론에서 얻을 수있는 가능성과 비슷합니다.


1
실제로 테스트 세트의 난이도를 계산하는 방법에 대해 더 구체적으로 답변을 향상시킬 수 있다고 생각합니다.
Momo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.