Naive Bayes에는 확률이 있습니다. 단어를 두 번 세어야합니까?


12

내 Naive Bayes bag o 'words 모델을 프로토 타이핑하고 있으며, 기능 확률 계산에 대한 질문이있었습니다.

두 가지 클래스가 있다고 가정 해 봅시다. 모든 사람들이 사용하는 스팸이기 때문에 스팸과 스팸 아님을 사용합니다. 그리고 "viagra"라는 단어를 예로 들어 봅시다. 트레이닝 세트에 10 개의 이메일, 5 개의 스팸 및 5 개의 비 스팸이 있습니다. "viagra"는 5 개의 스팸 문서 모두에 나타납니다. 교육 문서 중 하나에 3 번 (내 질문에 대한 내용) 표시되므로 스팸으로 7 번 나타납니다. 스팸이 아닌 교육 세트에서는 1 회 나타납니다.

p (viagra | spam)를 추정하려면 간단히 다음과 같습니다.

p (viagra | 스팸) = 5 개의 스팸 문서에 viagra가 포함됨 / 5 개의 스팸 문서 총계 = 1

다시 말해, 한 문서가 비아그라를 한 번이 아니라 3 번 언급했다는 사실이 실제로 중요하지 않습니까?


편집 : 여기 저자가 방금 배치 한 접근 방식을 사용하는 블로그 게시물이 있습니다. http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/

그리고 다음은 저자가 말한 블로그 글입니다 : p (viagra | spam) = 7 viagra 스팸 언급 / 8 총 언급 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply 순 베이 베이 분류기에서 문서 분류로의 문제

그리고 아래 답변 중 하나는 다음과 같아야합니다. p (viagra | spam) = 7 viagra 스팸에 대한 언급 / 스팸의 총 용어 수

누구든지 이것에 대한 의견을 제시하는 출처에 연결할 수 있습니까?

답변:


4

다시 말해, 한 문서가 비아그라를 한 번이 아니라 3 번 언급했다는 사실이 실제로 중요하지 않습니까?

중요하다. 다항 나이브 베이 즈 모델 반면, 고려 토큰의 각 경우 소요 베르누이 나이브 베이 즈 모델이 되지 않는 (즉, 후자의 모델은 "비아그라 '3 어커런스가'비아그라 '1 명 발생와 동일하다).

다음은 {1}의 비교표와 두 가지 그림입니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

{1}은 텍스트 분류를위한 Naive Bayes와 Multinomial Naive Bayes 모델 및 Bernoulli Naive Bayes 모델을 깔끔하게 소개합니다.


참고 문헌 :

  • {1} Christopher D. Manning, Prabhakar Raghavan 및 Hinrich Schütze. " 정보 검색 소개. "2009, 13 장 텍스트 분류 및 Naive Bayes .

1

적용하는 특정 순진한 모델에 따라 다릅니다. 일반적으로 텍스트 분류의 경우 용어의 반복을 고려하려고하므로 대답은 '예'입니다.

다른 요점은 문서 이벤트 공간을 기반으로 확률을 고려한다는 것입니다. 공간이라는 용어를 기반으로 할 수도 있습니다.

p (viagra | spam) = 클래스 스팸에서 5 배의 스팸 용어 / 클래스에서 50 개의 용어

이 [paper]에 많은 정보가 있습니다 ( http://echo.edres.org:8080/betsy/mccallum1.pdf )


0

p (viagra | spam)의 의미와 데이터 모델링 방식에 따라 달라집니다.

서면으로, 나는이 메시지가 스팸 인 경우 비아그라라는 단어가 메시지에서 적어도 한 번 언급 될 확률 "로 해석합니다. 이 경우, 한 문서가 viagra를 세 번 언급했다는 사실은 아무런 영향을 미치지 않습니다. 이러한 사실에주의를 기울이지 않는 모델을 정의했습니다.

물론 다른 모델을 가질 수도 있습니다. 예를 들어 비아그라가 이진 변수 (현재 / 부재)로 표시되는 대신 단어가 메시지에 나타나는 횟수를 나타낼 수 있습니다. 이 경우 원시 데이터에서 경험적 빈도를 추정 할 수 있습니다.

p (viagra = 0 | 스팸) = 0

p (viagra = 1 | 스팸) = 4/5

p (viagra = 2 | 스팸) = 0

p (viagra = 3 | 스팸) = 1/5

기타

나는 그것이 더 좋은 방법이라고 말하지 않습니다. 나는 비아그라가 세 번 언급되었다는 직감이 적절한 대안 적 상황을 설명하고 있습니다.

보다 실제적인 예는 문서의 단어 빈도에 많은주의를 기울이는 방법 인 'Term Frequency–Inverse Document Frequency'입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.