나는 처음에 이것을 스택 오버플로로 요청 했고이 사이트를 참조 했으므로 다음은 간다.
감독되지 않은 내용 선택 / 추출 기반 문서 요약 방법을 구현하고 있으며 교과서에서 "로그 가능성 비율"이라고 부르는 내용이 혼동됩니다. 이 책 음성 및 언어 처리 Jurafsky 마틴 짧게하여 같은 그것을 설명합니다 :
일반적으로 lambda (w)라고하는 단어의 LLR은 두 코로에서 동일한 확률을 가정하고 입력 및 백그라운드 코퍼스에서 w를 관찰 할 확률과 서로 다른 확률을 가정 할 때 w를 관찰 할 확률 사이의 비율입니다. 입력과 배경 말뭉치에 w.
그 결과를 세분화하면 분자가 있습니다. "입력과 배경 코퍼스에서 w를 모두 관찰 할 확률은 두 코도에서 동일한 확률을 가정합니다"-여기서 사용할 확률은 어떻게 계산합니까?
그리고 분모 : "입력과 백그라운드 코퍼스에서 w에 대해 다른 확률을 가정 할 때 w를 관측 할 확률". -입력 시간에 단어가 발생할 확률이 단어에서 단어가 발생할 확률만큼 간단합니까? 전의:
(count (word, input) / 입력 된 총 단어 수) * (count (word, corpus) / 코퍼스의 총 단어 수)
필자가 저술 한 책 ``놀람과 우연의 통계에 대한 정확한 방법 '' (1993 년)을 참조한 논문을 살펴 보았지만 추출 기반 요약에서 개별 단어에 대한 LLR 값을 계산하는 문제와 관련이 없다는 것을 알게되었습니다. 여기의 모든 설명은 정말로 감사하겠습니다.