«topic-models» 태그된 질문

4
주제 모델링을 수행하기위한 R 패키지 / LDA :`topicmodels` 및`lda` [폐쇄]
두 개의 R 패키지 만 Latent Dirichlet Allocation 을 수행 할 수있는 것 같습니다 . 하나는 ldaJonathan Chang이 저술 한 것입니다 . 다른 하나는 topicmodelsBettina Grün과 Kurt Hornik 이 저술했습니다. 성능, 구현 세부 사항 및 확장 성 측면에서이 두 패키지의 차이점은 무엇입니까?

3
주제 모델 및 단어 동시 발생 방법
LDA와 같은 인기있는 주제 모델은 일반적으로 같은 주제 (클러스터)로 함께 발생하는 단어를 묶습니다. 이러한 주제 모델과 PMI와 같은 다른 간단한 동시 발생 기반 클러스터링 방식의 주요 차이점은 무엇입니까? (PMI는 Pointwise Mutual Information의 약자이며 주어진 단어와 함께 발생하는 단어를 식별하는 데 사용됩니다.)

2
주제 모델의 주제 안정성
일련의 개방형 에세이의 내용에 대한 정보를 추출하려는 프로젝트를 진행 중입니다. 이 특정 프로젝트에서 148 명이 더 큰 실험의 일환으로 가상의 학생 조직에 대한 에세이를 썼습니다. 내 분야 (사회 심리학)에서 이러한 데이터를 분석하는 일반적인 방법은 수필로 수필을 코딩하는 것이지만 수작업으로 코딩하는 것은 노동 집약적이며 너무 주관적이기 때문에 정량적으로 수행하고 싶습니다. 미각. …

2
LDA 하이퍼 파라미터에 대한 자연 해석
누군가 LDA 하이퍼 파라미터에 대한 자연 해석이 무엇인지 설명 할 수 있습니까? ALPHA그리고 BETA(문서 당) 주제 및 (주제 당) 단어 분포에 대한 디리클레 분포의 매개 변수입니다. 그러나 누군가이 하이퍼 매개 변수의 값을 더 작게 선택하는 것이 무엇을 의미하는지 설명 할 수 있습니까? 그것은 문서의 주제 희소성 및 주제의 상호 배타성에 …

2
Latent Dirichlet Allocation으로 홀드 아웃의 당혹 성을 계산하는 방법은 무엇입니까?
Latent Dirichlet Allocation (LDA)을 수행 할 때 홀드 아웃 샘플의 난이도를 계산하는 방법에 대해 혼란스러워합니다. 주제에 관한 논문이 그 위에 산들 바람을 느꼈다. 당황은 LDA의 성능을 측정하는 좋은 척도로 보입니다. 아이디어는 홀드 아웃 샘플을 유지하고 나머지 데이터에 대해 LDA를 학습 한 다음 홀드 아웃의 난이도를 계산하는 것입니다. 당황은 다음 공식으로 …

1
잠재 된 디 리클 렛 할당을 사용한 주제 예측
나는 문서 모음에서 LDA를 사용했으며 몇 가지 주제를 발견했습니다. 내 코드의 출력은 확률을 포함하는 두 개의 행렬입니다. 하나의 의사 주제 확률과 다른 단어 주제 확률. 그러나 실제로 이러한 결과를 사용하여 새 문서의 주제를 예측하는 방법을 모르겠습니다. Gibbs 샘플링을 사용하고 있습니다. 아무도 방법을 알고 있습니까? 감사

3
짧은 문서를위한 주제 모델
이 질문 에서 영감을 받아 , 매우 짧은 텍스트의 큰 컬렉션을 위해 주제 모델에 대한 작업이 수행되었는지 궁금합니다. 내 직감은 트위터가 그러한 모델에 대한 자연스러운 영감이어야한다는 것입니다. 그러나 일부 제한된 실험에서 표준 토픽 모델 (LDA 등)이 이런 종류의 데이터에서 성능이 좋지 않은 것으로 보입니다. 이 분야에서 수행 된 작업에 대해 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.