문서 요약에서의 로그 우도 비율


9

나는 처음에 이것을 스택 오버플로로 요청 했고이 사이트를 참조 했으므로 다음은 간다.

감독되지 않은 내용 선택 / 추출 기반 문서 요약 방법을 구현하고 있으며 교과서에서 "로그 가능성 비율"이라고 부르는 내용이 혼동됩니다. 이 책 음성 및 언어 처리 Jurafsky 마틴 짧게하여 같은 그것을 설명합니다 :

일반적으로 lambda (w)라고하는 단어의 LLR은 두 코로에서 동일한 확률을 가정하고 입력 및 백그라운드 코퍼스에서 w를 관찰 할 확률과 서로 다른 확률을 가정 할 때 w를 관찰 할 확률 사이의 비율입니다. 입력과 배경 말뭉치에 w.

그 결과를 세분화하면 분자가 있습니다. "입력과 배경 코퍼스에서 w를 모두 관찰 할 확률은 두 코도에서 동일한 확률을 가정합니다"-여기서 사용할 확률은 어떻게 계산합니까?

그리고 분모 : "입력과 백그라운드 코퍼스에서 w에 대해 다른 확률을 가정 할 때 w를 관측 할 확률". -입력 시간에 단어가 발생할 확률이 단어에서 단어가 발생할 확률만큼 간단합니까? 전의:

(count (word, input) / 입력 된 총 단어 수) * (count (word, corpus) / 코퍼스의 총 단어 수)

필자가 저술 한 책 ``놀람과 우연의 통계에 대한 정확한 방법 '' (1993 년)을 참조한 논문을 살펴 보았지만 추출 기반 요약에서 개별 단어에 대한 LLR 값을 계산하는 문제와 관련이 없다는 것을 알게되었습니다. 여기의 모든 설명은 정말로 감사하겠습니다.


1
교과서가 무엇인지 말씀해 주시겠습니까?
onestop

Jurafsky & Martin의 음성 및 언어 처리
Richard

답변:


1

내 지식이 제한되어 있다고 생각합니다.

  1. "입력에서 w를 관측 할 확률"은 값을 계산하기 위해 분포가 필요합니다
  2. "입력과 배경 코퍼스 모두에서 w를 관찰 할 확률은 두 군단에서 동일한 확률을 가정하고"w를 관찰 할 가능성을 의미합니다.

여기 내 공식이 있습니다.


문제를 조금 공식화 :

  1. 가설 1 : P (입력에서 w) = P (백그라운드에서 w) = p
  2. 가설 2 : P (입력에서 w) = p1 및 P (백그라운드에서 w) = p2 및 p1 p2

중요한 부분은 여기서 배포를 가정해야한다는 것입니다. 간단히 말해서, 우리는 텍스트에서 w를 생성하기 위해 이항 분포를 가정합니다. 표본 데이터가 주어지면 최대 우도 추정을 사용하여 p, p1 및 p2의 값을 계산할 수 있습니다.

  1. p = (입력 카운트 + 배경 카운트) / (입력 크기 + 배경 크기) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

어떤 가설이 더 가능성이 높은지 알고 싶습니다. 따라서 각 가설의 우도를 계산하고 서로 비교합니다 (기본적으로 우도 비율이하는 것임).

이항 분포를 가정하므로 c1 및 c2를 가질 가능성을 계산할 수 있습니다.

가설 1 :

L (c1) = 입력에서 w를 관측 할 확률 = 확률 p를 가정하여 N1 단어가있을 때 c1을 달성 할 가능성 (또는 다른 말로하면, N1 번 중 c1 번에 w를 선택)은 b (N1, c1 , p)-이항 확률 공식을 참조 하십시오

L (c2) = 배경에서 w를 관측 할 확률 = 확률 p가 b (N2, c2, p)라고 가정하고 N2 단어가있을 때 c2를 달성 할 가능성

가설 2의 경우 p1과 p2를 대신 사용할 수 있습니다.

이제 어떤 가설이 더 가능성이 높은지 알고 싶습니다. 각 가설의 출력값을 어떻게 비교해야하는지 알아야합니다.

그러나 각 가설에는 L (c1)과 L (c2)의 2 가지 값이 있습니다. 어떤 가설이 더 가능성이 높은지를 어떻게 비교할 수 있습니까? --- 우리는 단일 값 출력을 달성하기 위해 함께 곱하기로 선택합니다. (지오메트리와 유사하기 때문에 추측합니다)


귀하의 항목에서 p, p1 및 p2는 p, p1 및 p2의 추정치입니까?
시안

네 맞습니다. 통계적으로 말하면, 표본 데이터와 이항 분포를 고려할 때 최대 가능성 추정치입니다.
타닌

지적 해 주셔서 감사합니다, btw. 나는 대답을 향상시켰다.
Tanin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.