답변:
Dirichlet 분포는 다변량 분포입니다. 우리는 ~ 1 형식의 크기 K의 벡터로 Dirichlet의 매개 변수를 나타낼 수 있습니다 . 여기서a는모수의 크기K의벡터이고∑xi=1입니다.
이제 LDA는 다음과 같은 구성을 사용합니다.
앞의 두 개는 데이터에서 실제로 볼 수없는 분포이므로 잠복 또는 숨김이라고합니다.
이전의 매개 변수를 하이퍼 파라미터라고 합니다. 따라서 LDA에서 주제 분포, 문서 및 단어에 대한 대응 사전도 있으며, 이는 일반적으로 알파와 베타로 표시되며 이전 분포의 매개 변수를 하이퍼 파라미터라고합니다.
또한 이전 매개 변수의 값은 매개 변수의 값이 1에 가까워서 분포의 부드러운 pdf를 생성한다는 점에 유의하십시오. 1에 가까운 값이 이러한 지식 부족을 인코딩하는 것보다 그러한 종류의 지식을 가지고 있지 않으면 절대 값에서 1에서 멀리 떨어진 값이 사용됩니다. 왜 분포 1 자체의 공식에서 Dirichlet 분포에서 1이 그런 역할을하는지 쉽게 알 수 있습니다.
도움이 되었기를 바랍니다.