Latent Dirichlet Allocation (LDA)을 수행 할 때 홀드 아웃 샘플의 난이도를 계산하는 방법에 대해 혼란스러워합니다. 주제에 관한 논문이 그 위에 산들 바람을 느꼈다.
당황은 LDA의 성능을 측정하는 좋은 척도로 보입니다. 아이디어는 홀드 아웃 샘플을 유지하고 나머지 데이터에 대해 LDA를 학습 한 다음 홀드 아웃의 난이도를 계산하는 것입니다.
당황은 다음 공식으로 나타낼 수 있습니다.
( Hoster 등의 대규모 이미지 데이터베이스 에서 이미지 검색을 통해 얻은 것 입니다.)
여기서 (시험 샘플에서, 아마도) 문서의 수이고, 문서의 단어를 나타내는 , 문서 내의 단어의 수 .w d d N d d
을 현명하게 계산하는 방법은 명확 하지 않습니다. 공개 문서에 대한 주제 혼합이 없기 때문입니다. 이상적으로는 가능한 모든 주제 혼합에 대해 먼저 Dirichlet을 통합하고 학습 한 주제 다항식을 사용합니다. 그러나이 적분을 계산하는 것은 쉬운 일이 아닙니다.
또는, 우리는 배운 주제마다 주어진 각 문서에 대해 최적의 주제 혼합을 배우려고 시도하고 이것을 사용하여 당황을 계산할 수 있습니다. 이것은 가능하지만 Horter 등 및 Blei 등의 논문이 제안한 것처럼 사소한 것은 아니며 결과가 위의 이상적인 경우와 동일하다는 것이 즉시 명확하지 않습니다.